MegaScale: Het Opschalen van Grote Taalmodeltraining naar Meer Dan 10.000 GPU's

Samenvatting

We presenteren het ontwerp, de implementatie en de technische ervaring bij het bouwen en inzetten van MegaScale, een productiesysteem voor het trainen van grote taalmodel(len) (LLM's) op een schaal van meer dan 10.000 GPU's. Het trainen van LLM's op deze schaal brengt ongekende uitdagingen met zich mee op het gebied van trainings efficiëntie en stabiliteit. We hanteren een full-stack benadering waarbij de algoritmische en systeemcomponenten gezamenlijk worden ontworpen, inclusief het ontwerp van modelblokken en optimalisatoren, overlapping van berekeningen en communicatie, optimalisatie van operatoren, de datapijplijn en afstemming van netwerkprestaties. Het behouden van een hoge efficiëntie gedurende het hele trainingsproces (d.w.z. stabiliteit) is een belangrijk aandachtspunt in productie, gezien de lange duur van LLM-trainingsjobs. Veel hardnekkige stabiliteitsproblemen komen pas op grote schaal naar voren, en diepgaande observeerbaarheid is de sleutel om deze aan te pakken. We hebben een set diagnostische tools ontwikkeld om systeemcomponenten en gebeurtenissen diep in de stack te monitoren, grondoorzaken te identificeren en effectieve technieken af te leiden om fouttolerantie te bereiken en achterblijvers te verminderen. MegaScale behaalt een Model FLOPs Utilisation (MFU) van 55,2% bij het trainen van een LLM-model van 175B op 12.288 GPU's, wat de MFU met 1,34x verbetert in vergelijking met Megatron-LM. We delen onze operationele ervaringen bij het identificeren en oplossen van fouten en achterblijvers. We hopen dat door het articuleren van de problemen en het delen van onze ervaring vanuit een systeemperspectief, dit werk toekomstig onderzoek naar LLM-systemen kan inspireren.

English

We present the design, implementation and engineering experience in building and deploying MegaScale, a production system for training large language models (LLMs) at the scale of more than 10,000 GPUs. Training LLMs at this scale brings unprecedented challenges to training efficiency and stability. We take a full-stack approach that co-designs the algorithmic and system components across model block and optimizer design, computation and communication overlapping, operator optimization, data pipeline, and network performance tuning. Maintaining high efficiency throughout the training process (i.e., stability) is an important consideration in production given the long extent of LLM training jobs. Many hard stability issues only emerge at large scale, and in-depth observability is the key to address them. We develop a set of diagnosis tools to monitor system components and events deep in the stack, identify root causes, and derive effective techniques to achieve fault tolerance and mitigate stragglers. MegaScale achieves 55.2% Model FLOPs Utilization (MFU) when training a 175B LLM model on 12,288 GPUs, improving the MFU by 1.34x compared to Megatron-LM. We share our operational experience in identifying and fixing failures and stragglers. We hope by articulating the problems and sharing our experience from a systems perspective, this work can inspire future LLM systems research.

MegaScale: Het Opschalen van Grote Taalmodeltraining naar Meer Dan 10.000 GPU's

MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs

Samenvatting

Support