Non deixes que o almacenamento se converta no pescozo de botella clave no adestramento de modelos

Díxose que as empresas tecnolóxicas buscan GPU ou están en camiño de adquirilas. En abril, o CEO de Tesla, Elon Musk, comprou 10.000 GPU e afirmou que a compañía seguiría mercando unha gran cantidade de GPU a NVIDIA. No lado das empresas, o persoal de TI tamén está a esforzarse para garantir que as GPU se utilicen constantemente para maximizar o retorno do investimento. Non obstante, algunhas empresas poden descubrir que mentres aumenta o número de GPU, a inactividade da GPU faise máis grave.

Se a historia nos ensinou algo sobre a computación de alto rendemento (HPC), é que o almacenamento e as redes non se deben sacrificar a costa de centrarse demasiado na computación. Se o almacenamento non pode transferir datos de forma eficiente ás unidades informáticas, aínda que teñas a maior cantidade de GPU do mundo, non conseguirás unha eficiencia óptima.

Segundo Mike Matchett, analista de Small World Big Data, pódense executar modelos máis pequenos en memoria (RAM), o que permite un maior foco na computación. Non obstante, os modelos máis grandes como ChatGPT con millóns de nodos non se poden almacenar na memoria debido ao alto custo.

"Non pode caber miles de millóns de nodos na memoria, polo que o almacenamento faise aínda máis importante", di Matchett. Desafortunadamente, o almacenamento de datos adoita pasarse por alto durante o proceso de planificación.

En xeral, independentemente do caso de uso, hai catro puntos comúns no proceso de formación do modelo:

1. Formación de modelos
2. Aplicación de inferencia
3. Almacenamento de datos
4. Computación acelerada

Ao crear e implantar modelos, a maioría dos requisitos priorizan os contornos de proba de concepto rápida (POC) ou de proba para iniciar a formación do modelo, sen ter en conta as necesidades de almacenamento de datos.

Non obstante, o desafío reside no feito de que a formación ou a implantación de inferencias poden durar meses ou mesmo anos. Moitas empresas escalan rapidamente o tamaño dos seus modelos durante este tempo e a infraestrutura debe expandirse para acomodar os modelos e conxuntos de datos en crecemento.

A investigación de Google sobre millóns de cargas de traballo de adestramento de ML revela que unha media do 30 % do tempo de adestramento pásase na canalización de datos de entrada. Aínda que as investigacións pasadas centráronse en optimizar as GPU para acelerar o adestramento, aínda quedan moitos retos para optimizar varias partes do pipeline de datos. Cando tes un poder computacional significativo, o verdadeiro pescozo de botella pasa a ser a rapidez coa que podes alimentar os datos aos cálculos para obter resultados.

En concreto, os retos no almacenamento e xestión de datos requiren unha planificación para o crecemento dos datos, o que lle permite extraer continuamente o valor dos datos a medida que avanza, especialmente cando se aventura en casos de uso máis avanzados, como a aprendizaxe profunda e as redes neuronais, que requiren unha maior demanda de almacenamento en termos de capacidade, rendemento e escalabilidade.

En particular:

Escalabilidade
A aprendizaxe automática require manexar grandes cantidades de datos e, a medida que aumenta o volume de datos, a precisión dos modelos tamén mellora. Isto significa que as empresas deben recoller e almacenar máis datos cada día. Cando o almacenamento non pode escalar, as cargas de traballo intensivas en datos crean pescozos de botella, o que limita o rendemento e provoca un custoso tempo de inactividade da GPU.

Flexibilidade
É necesaria unha compatibilidade flexible para varios protocolos (incluíndo NFS, SMB, HTTP, FTP, HDFS e S3) para satisfacer as necesidades de diferentes sistemas, en lugar de limitarse a un único tipo de ambiente.

Latencia
A latencia de E/S é fundamental para crear e utilizar modelos xa que os datos se len e relen varias veces. Reducir a latencia de E/S pode acurtar o tempo de adestramento dos modelos en días ou meses. Un desenvolvemento máis rápido do modelo tradúcese directamente en maiores vantaxes comerciais.

Rendemento
O rendemento dos sistemas de almacenamento é crucial para unha formación eficiente do modelo. Os procesos de adestramento implican grandes cantidades de datos, normalmente en terabytes por hora.

Acceso paralelo
Para conseguir un alto rendemento, os modelos de adestramento dividen as actividades en varias tarefas paralelas. Isto moitas veces significa que os algoritmos de aprendizaxe automática acceden aos mesmos ficheiros desde varios procesos (potencialmente en varios servidores físicos) simultaneamente. O sistema de almacenamento debe xestionar demandas simultáneas sen comprometer o rendemento.

Coas súas excelentes capacidades de baixa latencia, alto rendemento e E/S paralela a gran escala, Dell PowerScale é un complemento de almacenamento ideal para a computación acelerada por GPU. PowerScale reduce eficazmente o tempo necesario para os modelos de análise que adestran e proban conxuntos de datos de varios terabytes. No almacenamento totalmente flash de PowerScale, o ancho de banda aumenta 18 veces, eliminando os pescozos de botella de E/S e pódese engadir aos clústeres Isilon existentes para acelerar e desbloquear o valor de grandes cantidades de datos non estruturados.

Ademais, as capacidades de acceso multiprotocolo de PowerScale proporcionan flexibilidade ilimitada para executar cargas de traballo, permitindo almacenar os datos mediante un protocolo e acceder mediante outro. En concreto, as potentes funcións, a flexibilidade, a escalabilidade e a funcionalidade de nivel empresarial da plataforma PowerScale axudan a abordar os seguintes desafíos:

- Acelerar a innovación ata 2,7 veces, reducindo o modelo de ciclo formativo.

- Elimine os pescozos de botella de E/S e proporcione un adestramento e validación de modelos máis rápidos, unha precisión mellorada do modelo, unha produtividade mellorada da ciencia de datos e un retorno máximo dos investimentos informáticos aproveitando funcións de nivel empresarial, alto rendemento, simultaneidade e escalabilidade. Mellora a precisión do modelo con conxuntos de datos máis profundos e de maior resolución aproveitando ata 119 PB de capacidade de almacenamento efectiva nun único clúster.

- Consiga a implantación a escala iniciando a computación e o almacenamento de forma pequena e independente, ofrecendo opcións de seguridade e protección de datos sólidas.

- Mellora a produtividade da ciencia de datos con análises in situ e solucións validadas previamente para implementacións máis rápidas e de baixo risco.

- Aproveitando deseños comprobados baseados nas mellores tecnoloxías da súa clase, incluíndo a aceleración de GPU de NVIDIA e arquitecturas de referencia con sistemas NVIDIA DGX. O alto rendemento e a simultaneidade de PowerScale cumpren os requisitos de rendemento de almacenamento en cada etapa da aprendizaxe automática, desde a adquisición e preparación de datos ata o adestramento e inferencia de modelos. Xunto co sistema operativo OneFS, todos os nodos poden funcionar perfectamente dentro do mesmo clúster dirixido por OneFS, con funcións de nivel empresarial como a xestión do rendemento, a xestión de datos, a seguridade e a protección de datos, o que permite a realización máis rápida da formación e validación do modelo para as empresas.


Hora de publicación: 03-Xul-2023