DiLoCoX : Un cadre d'entraînement à grande échelle à faible communication pour les clusters décentralisés

papers.abstract

L'entraînement distribué des modèles de base, en particulier des grands modèles de langage (LLMs), nécessite un niveau élevé de communication. Par conséquent, il dépend fortement d'un cluster centralisé doté d'interconnexions rapides et fiables. Pouvons-nous mener l'entraînement sur des réseaux lents et ainsi libérer la puissance des clusters décentralisés lorsqu'il s'agit de modèles dépassant les 100 milliards de paramètres ? Dans cet article, nous proposons DiLoCoX, un cadre d'entraînement décentralisé à grande échelle à faible communication. Il combine le parallélisme par pipeline avec une politique à double optimiseur, un chevauchement en un pas de retard entre la communication et l'entraînement local, ainsi qu'un schéma de compression de gradient adaptatif. Cette combinaison améliore considérablement l'échelle des paramètres et la vitesse de pré-entraînement du modèle. Nous justifions les avantages du chevauchement en un pas de retard entre la communication et l'entraînement local, ainsi que du schéma de compression de gradient adaptatif, par une analyse théorique de la convergence. Empiriquement, nous démontrons que DiLoCoX est capable de pré-entraîner un modèle de base de 107 milliards de paramètres sur un réseau de 1 Gbps. Par rapport à l'AllReduce classique, DiLoCoX peut atteindre une accélération de 357 fois dans l'entraînement distribué tout en maintenant une dégradation négligeable de la convergence du modèle. À notre connaissance, il s'agit du premier cadre d'entraînement décentralisé appliqué avec succès à des modèles de plus de 100 milliards de paramètres.

English

The distributed training of foundation models, particularly large language models (LLMs), demands a high level of communication. Consequently, it is highly dependent on a centralized cluster with fast and reliable interconnects. Can we conduct training on slow networks and thereby unleash the power of decentralized clusters when dealing with models exceeding 100 billion parameters? In this paper, we propose DiLoCoX, a low-communication large-scale decentralized cluster training framework. It combines Pipeline Parallelism with Dual Optimizer Policy, One-Step-Delay Overlap of Communication and Local Training, and an Adaptive Gradient Compression Scheme. This combination significantly improves the scale of parameters and the speed of model pre-training. We justify the benefits of one-step-delay overlap of communication and local training, as well as the adaptive gradient compression scheme, through a theoretical analysis of convergence. Empirically, we demonstrate that DiLoCoX is capable of pre-training a 107B foundation model over a 1Gbps network. Compared to vanilla AllReduce, DiLoCoX can achieve a 357x speedup in distributed training while maintaining negligible degradation in model convergence. To the best of our knowledge, this is the first decentralized training framework successfully applied to models with over 100 billion parameters.

DiLoCoX : Un cadre d'entraînement à grande échelle à faible communication pour les clusters décentralisés

DiLoCoX: A Low-Communication Large-Scale Training Framework for Decentralized Cluster

papers.abstract

Support