ChatPaper.aiChatPaper

DiLoCoX: Een Laag-Communicatie Groot-Schaal Trainingsraamwerk voor Gedecentraliseerde Clusters

DiLoCoX: A Low-Communication Large-Scale Training Framework for Decentralized Cluster

June 26, 2025
Auteurs: Ji Qi, WenPeng Zhu, Li Li, Ming Wu, YingJun Wu, Wu He, Xun Gao, Jason Zeng, Michael Heinrich
cs.AI

Samenvatting

De gedistribueerde training van foundation models, met name grote taalmodellen (LLMs), vereist een hoog niveau van communicatie. Hierdoor is het sterk afhankelijk van een gecentraliseerd cluster met snelle en betrouwbare interconnecties. Kunnen we training uitvoeren op langzame netwerken en daarmee de kracht van gedecentraliseerde clusters benutten bij het omgaan met modellen die meer dan 100 miljard parameters bevatten? In dit artikel introduceren we DiLoCoX, een low-communication, grootschalig gedecentraliseerd clustertrainingsframework. Het combineert Pipeline Parallelism met een Dual Optimizer Policy, One-Step-Delay Overlap van communicatie en lokale training, en een Adaptief Gradient Compressie Schema. Deze combinatie verbetert aanzienlijk de schaal van parameters en de snelheid van modelpre-training. We rechtvaardigen de voordelen van de one-step-delay overlap van communicatie en lokale training, evenals het adaptieve gradient compressie schema, door middel van een theoretische convergentieanalyse. Empirisch tonen we aan dat DiLoCoX in staat is om een 107B foundation model te pre-trainen over een 1Gbps netwerk. Vergeleken met vanilla AllReduce kan DiLoCoX een 357x versnelling bereiken in gedistribueerde training, terwijl de degradatie in modelconvergentie verwaarloosbaar blijft. Voor zover wij weten, is dit het eerste gedecentraliseerde trainingsframework dat met succes is toegepast op modellen met meer dan 100 miljard parameters.
English
The distributed training of foundation models, particularly large language models (LLMs), demands a high level of communication. Consequently, it is highly dependent on a centralized cluster with fast and reliable interconnects. Can we conduct training on slow networks and thereby unleash the power of decentralized clusters when dealing with models exceeding 100 billion parameters? In this paper, we propose DiLoCoX, a low-communication large-scale decentralized cluster training framework. It combines Pipeline Parallelism with Dual Optimizer Policy, One-Step-Delay Overlap of Communication and Local Training, and an Adaptive Gradient Compression Scheme. This combination significantly improves the scale of parameters and the speed of model pre-training. We justify the benefits of one-step-delay overlap of communication and local training, as well as the adaptive gradient compression scheme, through a theoretical analysis of convergence. Empirically, we demonstrate that DiLoCoX is capable of pre-training a 107B foundation model over a 1Gbps network. Compared to vanilla AllReduce, DiLoCoX can achieve a 357x speedup in distributed training while maintaining negligible degradation in model convergence. To the best of our knowledge, this is the first decentralized training framework successfully applied to models with over 100 billion parameters.
PDF41June 27, 2025