DiLoCoX : Un cadre d'entraînement à grande échelle à faible communication pour les clusters décentralisés
DiLoCoX: A Low-Communication Large-Scale Training Framework for Decentralized Cluster
June 26, 2025
Auteurs: Ji Qi, WenPeng Zhu, Li Li, Ming Wu, YingJun Wu, Wu He, Xun Gao, Jason Zeng, Michael Heinrich
cs.AI
Résumé
L'entraînement distribué des modèles de base, en particulier des grands modèles de langage (LLMs), nécessite un niveau élevé de communication. Par conséquent, il dépend fortement d'un cluster centralisé doté d'interconnexions rapides et fiables. Pouvons-nous mener l'entraînement sur des réseaux lents et ainsi libérer la puissance des clusters décentralisés lorsqu'il s'agit de modèles dépassant les 100 milliards de paramètres ? Dans cet article, nous proposons DiLoCoX, un cadre d'entraînement décentralisé à grande échelle à faible communication. Il combine le parallélisme par pipeline avec une politique à double optimiseur, un chevauchement en un pas de retard entre la communication et l'entraînement local, ainsi qu'un schéma de compression de gradient adaptatif. Cette combinaison améliore considérablement l'échelle des paramètres et la vitesse de pré-entraînement du modèle. Nous justifions les avantages du chevauchement en un pas de retard entre la communication et l'entraînement local, ainsi que du schéma de compression de gradient adaptatif, par une analyse théorique de la convergence. Empiriquement, nous démontrons que DiLoCoX est capable de pré-entraîner un modèle de base de 107 milliards de paramètres sur un réseau de 1 Gbps. Par rapport à l'AllReduce classique, DiLoCoX peut atteindre une accélération de 357 fois dans l'entraînement distribué tout en maintenant une dégradation négligeable de la convergence du modèle. À notre connaissance, il s'agit du premier cadre d'entraînement décentralisé appliqué avec succès à des modèles de plus de 100 milliards de paramètres.
English
The distributed training of foundation models, particularly large language
models (LLMs), demands a high level of communication. Consequently, it is
highly dependent on a centralized cluster with fast and reliable interconnects.
Can we conduct training on slow networks and thereby unleash the power of
decentralized clusters when dealing with models exceeding 100 billion
parameters? In this paper, we propose DiLoCoX, a low-communication large-scale
decentralized cluster training framework. It combines Pipeline Parallelism with
Dual Optimizer Policy, One-Step-Delay Overlap of Communication and Local
Training, and an Adaptive Gradient Compression Scheme. This combination
significantly improves the scale of parameters and the speed of model
pre-training. We justify the benefits of one-step-delay overlap of
communication and local training, as well as the adaptive gradient compression
scheme, through a theoretical analysis of convergence. Empirically, we
demonstrate that DiLoCoX is capable of pre-training a 107B foundation model
over a 1Gbps network. Compared to vanilla AllReduce, DiLoCoX can achieve a 357x
speedup in distributed training while maintaining negligible degradation in
model convergence. To the best of our knowledge, this is the first
decentralized training framework successfully applied to models with over 100
billion parameters.