ChatPaper.aiChatPaper

MegaScale: Масштабирование обучения больших языковых моделей до более чем 10 000 GPU

MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs

February 23, 2024
Авторы: Ziheng Jiang, Haibin Lin, Yinmin Zhong, Qi Huang, Yangrui Chen, Zhi Zhang, Yanghua Peng, Xiang Li, Cong Xie, Shibiao Nong, Yulu Jia, Sun He, Hongmin Chen, Zhihao Bai, Qi Hou, Shipeng Yan, Ding Zhou, Yiyao Sheng, Zhuo Jiang, Haohan Xu, Haoran Wei, Zhang Zhang, Pengfei Nie, Leqi Zou, Sida Zhao, Liang Xiang, Zherui Liu, Zhe Li, Xiaoying Jia, Jianxi Ye, Xin Jin, Xin Liu
cs.AI

Аннотация

Мы представляем проектирование, реализацию и инженерный опыт создания и развертывания MegaScale — производственной системы для обучения больших языковых моделей (LLM) на масштабе более 10 000 графических процессоров (GPU). Обучение LLM на таком масштабе ставит беспрецедентные задачи перед эффективностью и стабильностью процесса. Мы применяем комплексный подход, совместно проектируя алгоритмические и системные компоненты, включая дизайн блоков модели и оптимизатора, перекрытие вычислений и коммуникаций, оптимизацию операторов, конвейер данных и настройку производительности сети. Поддержание высокой эффективности на протяжении всего процесса обучения (т.е. стабильности) является важным аспектом в производственной среде, учитывая длительность задач обучения LLM. Многие сложные проблемы стабильности проявляются только на больших масштабах, и глубокая наблюдаемость является ключом к их решению. Мы разработали набор диагностических инструментов для мониторинга компонентов системы и событий на всех уровнях стека, выявления корневых причин и разработки эффективных методов для достижения отказоустойчивости и устранения отстающих узлов. MegaScale достигает 55,2% использования операций с плавающей запятой модели (Model FLOPs Utilization, MFU) при обучении LLM с 175 миллиардами параметров на 12 288 GPU, что улучшает MFU в 1,34 раза по сравнению с Megatron-LM. Мы делимся нашим операционным опытом в выявлении и устранении сбоев и отстающих узлов. Надеемся, что, формулируя проблемы и делясь нашим опытом с системной точки зрения, эта работа вдохновит будущие исследования в области систем для LLM.
English
We present the design, implementation and engineering experience in building and deploying MegaScale, a production system for training large language models (LLMs) at the scale of more than 10,000 GPUs. Training LLMs at this scale brings unprecedented challenges to training efficiency and stability. We take a full-stack approach that co-designs the algorithmic and system components across model block and optimizer design, computation and communication overlapping, operator optimization, data pipeline, and network performance tuning. Maintaining high efficiency throughout the training process (i.e., stability) is an important consideration in production given the long extent of LLM training jobs. Many hard stability issues only emerge at large scale, and in-depth observability is the key to address them. We develop a set of diagnosis tools to monitor system components and events deep in the stack, identify root causes, and derive effective techniques to achieve fault tolerance and mitigate stragglers. MegaScale achieves 55.2% Model FLOPs Utilization (MFU) when training a 175B LLM model on 12,288 GPUs, improving the MFU by 1.34x compared to Megatron-LM. We share our operational experience in identifying and fixing failures and stragglers. We hope by articulating the problems and sharing our experience from a systems perspective, this work can inspire future LLM systems research.
PDF392December 15, 2024