MegaScale: Escalando el Entrenamiento de Modelos de Lenguaje a Gran Escala a Más de 10,000 GPUs

Resumen

Presentamos el diseño, implementación y experiencia de ingeniería en la construcción y despliegue de MegaScale, un sistema de producción para entrenar modelos de lenguaje grandes (LLMs) a una escala de más de 10,000 GPUs. Entrenar LLMs a esta escala presenta desafíos sin precedentes en cuanto a la eficiencia y estabilidad del entrenamiento. Adoptamos un enfoque de pila completa que co-diseña los componentes algorítmicos y del sistema, abarcando el diseño de bloques del modelo y optimizadores, la superposición de computación y comunicación, la optimización de operadores, la canalización de datos y el ajuste del rendimiento de la red. Mantener una alta eficiencia durante todo el proceso de entrenamiento (es decir, estabilidad) es una consideración importante en producción, dado la extensa duración de los trabajos de entrenamiento de LLMs. Muchos problemas de estabilidad difíciles solo surgen a gran escala, y la observabilidad profunda es clave para abordarlos. Desarrollamos un conjunto de herramientas de diagnóstico para monitorear componentes del sistema y eventos en lo profundo de la pila, identificar causas raíz y derivar técnicas efectivas para lograr tolerancia a fallos y mitigar los rezagados. MegaScale logra un 55.2% de Utilización de FLOPs del Modelo (MFU) al entrenar un modelo LLM de 175B en 12,288 GPUs, mejorando el MFU en 1.34x en comparación con Megatron-LM. Compartimos nuestra experiencia operativa en la identificación y corrección de fallos y rezagados. Esperamos que, al articular los problemas y compartir nuestra experiencia desde una perspectiva de sistemas, este trabajo pueda inspirar futuras investigaciones en sistemas de LLMs.

English

We present the design, implementation and engineering experience in building and deploying MegaScale, a production system for training large language models (LLMs) at the scale of more than 10,000 GPUs. Training LLMs at this scale brings unprecedented challenges to training efficiency and stability. We take a full-stack approach that co-designs the algorithmic and system components across model block and optimizer design, computation and communication overlapping, operator optimization, data pipeline, and network performance tuning. Maintaining high efficiency throughout the training process (i.e., stability) is an important consideration in production given the long extent of LLM training jobs. Many hard stability issues only emerge at large scale, and in-depth observability is the key to address them. We develop a set of diagnosis tools to monitor system components and events deep in the stack, identify root causes, and derive effective techniques to achieve fault tolerance and mitigate stragglers. MegaScale achieves 55.2% Model FLOPs Utilization (MFU) when training a 175B LLM model on 12,288 GPUs, improving the MFU by 1.34x compared to Megatron-LM. We share our operational experience in identifying and fixing failures and stragglers. We hope by articulating the problems and sharing our experience from a systems perspective, this work can inspire future LLM systems research.

MegaScale: Escalando el Entrenamiento de Modelos de Lenguaje a Gran Escala a Más de 10,000 GPUs

MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs

Resumen

Support