AMSP: Escalado Masivo del Entrenamiento de LLM mediante Partición Avanzada de Estados del Modelo

Resumen

Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento impresionante en diversas tareas posteriores. Al entrenar estos modelos, existe una creciente tendencia a procesar más tokens en escalas de entrenamiento más grandes, pero con tamaños de modelo relativamente más pequeños. El Optimizador de Redundancia Cero (ZeRO), aunque efectivo en entornos de entrenamiento convencionales, enfrenta desafíos de escalabilidad cuando se enfrenta a este paradigma emergente. Con este fin, proponemos un nuevo marco de entrenamiento para LLMs llamado AMSP, que realiza una partición granular de los estados del modelo, incluyendo parámetros (P), gradientes (G) y estados del optimizador (OS). Específicamente, AMSP (1) construye un espacio de partición unificado, permitiendo estrategias de partición independientes para P, G y OS; (2) incorpora un particionador consciente de la escala para buscar automáticamente estrategias de partición óptimas; y (3) diseña un optimizador de comunicación dedicado para garantizar una gestión eficiente de las discrepancias en la ubicación de datos que surgen de diversas estrategias de partición. Nuestras evaluaciones muestran que AMSP alcanza una eficiencia de escalabilidad de hasta el 90.3% en 1024 GPUs.

English

Large Language Models (LLMs) have demonstrated impressive performance across various downstream tasks. When training these models, there is a growing inclination to process more tokens on larger training scales but with relatively smaller model sizes. Zero Redundancy Optimizer (ZeRO), although effective in conventional training environments, grapples with scaling challenges when confronted with this emerging paradigm. To this end, we propose a novel LLM training framework AMSP, which undertakes a granular partitioning of model states, encompassing parameters (P), gradient (G), and optimizer states (OS). Specifically, AMSP(1) builds a unified partitioning space, enabling independent partitioning strategies for P, G, and OS; (2) incorporates a scale-aware partitioner to autonomously search for optimal partitioning strategies: (3) designs a dedicated communication optimizer to ensure proficient management of data placement discrepancies arising from diverse partitioning strategies. Our evaluations show that AMSP achieves up to 90.3% scaling efficiency across 1024 GPUs.

AMSP: Escalado Masivo del Entrenamiento de LLM mediante Partición Avanzada de Estados del Modelo

AMSP: Super-Scaling LLM Training via Advanced Model States Partitioning

Resumen

Support