MegaScale: Escalonando o Treinamento de Modelos de Linguagem de Grande Porte para Mais de 10.000 GPUs

Resumo

Apresentamos o design, a implementação e a experiência de engenharia na construção e implantação do MegaScale, um sistema de produção para treinar modelos de linguagem de grande escala (LLMs) em uma escala superior a 10.000 GPUs. Treinar LLMs nessa escala traz desafios sem precedentes em termos de eficiência e estabilidade do treinamento. Adotamos uma abordagem de pilha completa que co-projeta os componentes algorítmicos e de sistema, abrangendo o design de blocos do modelo e do otimizador, sobreposição de computação e comunicação, otimização de operadores, pipeline de dados e ajuste de desempenho de rede. Manter alta eficiência durante todo o processo de treinamento (ou seja, estabilidade) é uma consideração importante em produção, dado o longo período dos trabalhos de treinamento de LLMs. Muitos problemas difíceis de estabilidade só emergem em grande escala, e a observabilidade profunda é a chave para resolvê-los. Desenvolvemos um conjunto de ferramentas de diagnóstico para monitorar componentes do sistema e eventos profundos na pilha, identificar causas raiz e derivar técnicas eficazes para alcançar tolerância a falhas e mitigar atrasos. O MegaScale alcança 55,2% de Utilização de FLOPs do Modelo (MFU) ao treinar um modelo LLM de 175B em 12.288 GPUs, melhorando o MFU em 1,34x em comparação com o Megatron-LM. Compartilhamos nossa experiência operacional na identificação e correção de falhas e atrasos. Esperamos que, ao articular os problemas e compartilhar nossa experiência sob uma perspectiva de sistemas, este trabalho possa inspirar futuras pesquisas em sistemas de LLMs.

English

We present the design, implementation and engineering experience in building and deploying MegaScale, a production system for training large language models (LLMs) at the scale of more than 10,000 GPUs. Training LLMs at this scale brings unprecedented challenges to training efficiency and stability. We take a full-stack approach that co-designs the algorithmic and system components across model block and optimizer design, computation and communication overlapping, operator optimization, data pipeline, and network performance tuning. Maintaining high efficiency throughout the training process (i.e., stability) is an important consideration in production given the long extent of LLM training jobs. Many hard stability issues only emerge at large scale, and in-depth observability is the key to address them. We develop a set of diagnosis tools to monitor system components and events deep in the stack, identify root causes, and derive effective techniques to achieve fault tolerance and mitigate stragglers. MegaScale achieves 55.2% Model FLOPs Utilization (MFU) when training a 175B LLM model on 12,288 GPUs, improving the MFU by 1.34x compared to Megatron-LM. We share our operational experience in identifying and fixing failures and stragglers. We hope by articulating the problems and sharing our experience from a systems perspective, this work can inspire future LLM systems research.

MegaScale: Escalonando o Treinamento de Modelos de Linguagem de Grande Porte para Mais de 10.000 GPUs

MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs

Resumo

Support