ChatPaper.aiChatPaper

DiLoCoX: Un Framework di Addestramento su Grande Scala a Bassa Comunicazione per Cluster Decentralizzati

DiLoCoX: A Low-Communication Large-Scale Training Framework for Decentralized Cluster

June 26, 2025
Autori: Ji Qi, WenPeng Zhu, Li Li, Ming Wu, YingJun Wu, Wu He, Xun Gao, Jason Zeng, Michael Heinrich
cs.AI

Abstract

L'addestramento distribuito di modelli di base, in particolare i grandi modelli linguistici (LLM), richiede un elevato livello di comunicazione. Di conseguenza, dipende fortemente da un cluster centralizzato con interconnessioni veloci e affidabili. È possibile condurre l'addestramento su reti lente e sfruttare così il potenziale dei cluster decentralizzati quando si ha a che fare con modelli che superano i 100 miliardi di parametri? In questo articolo, proponiamo DiLoCoX, un framework di addestramento decentralizzato su larga scala a bassa comunicazione. Esso combina il Parallelismo a Pipeline con una Politica di Ottimizzazione Duale, la Sovrapposizione One-Step-Delay della Comunicazione e dell'Addestramento Locale, e uno Schema di Compressione Adattativa dei Gradienti. Questa combinazione migliora significativamente la scala dei parametri e la velocità di pre-addestramento del modello. Giustifichiamo i vantaggi della sovrapposizione one-step-delay della comunicazione e dell'addestramento locale, nonché dello schema di compressione adattativa dei gradienti, attraverso un'analisi teorica della convergenza. Empiricamente, dimostriamo che DiLoCoX è in grado di pre-addestrare un modello di base da 107B su una rete da 1Gbps. Rispetto al semplice AllReduce, DiLoCoX può ottenere un'accelerazione di 357x nell'addestramento distribuito mantenendo una degradazione trascurabile nella convergenza del modello. Per quanto ne sappiamo, questo è il primo framework di addestramento decentralizzato applicato con successo a modelli con oltre 100 miliardi di parametri.
English
The distributed training of foundation models, particularly large language models (LLMs), demands a high level of communication. Consequently, it is highly dependent on a centralized cluster with fast and reliable interconnects. Can we conduct training on slow networks and thereby unleash the power of decentralized clusters when dealing with models exceeding 100 billion parameters? In this paper, we propose DiLoCoX, a low-communication large-scale decentralized cluster training framework. It combines Pipeline Parallelism with Dual Optimizer Policy, One-Step-Delay Overlap of Communication and Local Training, and an Adaptive Gradient Compression Scheme. This combination significantly improves the scale of parameters and the speed of model pre-training. We justify the benefits of one-step-delay overlap of communication and local training, as well as the adaptive gradient compression scheme, through a theoretical analysis of convergence. Empirically, we demonstrate that DiLoCoX is capable of pre-training a 107B foundation model over a 1Gbps network. Compared to vanilla AllReduce, DiLoCoX can achieve a 357x speedup in distributed training while maintaining negligible degradation in model convergence. To the best of our knowledge, this is the first decentralized training framework successfully applied to models with over 100 billion parameters.
PDF41June 27, 2025