DiLoCoX: 分散型クラスタ向け低通信大規模学習フレームワーク
DiLoCoX: A Low-Communication Large-Scale Training Framework for Decentralized Cluster
June 26, 2025
著者: Ji Qi, WenPeng Zhu, Li Li, Ming Wu, YingJun Wu, Wu He, Xun Gao, Jason Zeng, Michael Heinrich
cs.AI
要旨
基盤モデル、特に大規模言語モデル(LLM)の分散トレーニングでは、高度な通信が要求されます。その結果、高速で信頼性の高い相互接続を備えた集中型クラスタに大きく依存しています。1000億パラメータを超えるモデルを扱う際に、低速ネットワーク上でトレーニングを行い、分散型クラスタの力を解放することは可能でしょうか?本論文では、低通信大規模分散クラスタトレーニングフレームワークであるDiLoCoXを提案します。これは、パイプライン並列処理、デュアルオプティマイザポリシー、通信とローカルトレーニングのワンステップ遅延オーバーラップ、および適応型勾配圧縮スキームを組み合わせたものです。この組み合わせにより、パラメータのスケールとモデルの事前トレーニング速度が大幅に向上します。通信とローカルトレーニングのワンステップ遅延オーバーラップ、および適応型勾配圧縮スキームの利点を、収束の理論的分析を通じて正当化します。実験的には、DiLoCoXが1Gbpsネットワーク上で107Bの基盤モデルを事前トレーニングできることを実証します。バニラAllReduceと比較して、DiLoCoXは分散トレーニングにおいて357倍の高速化を達成し、モデルの収束にほとんど劣化を生じさせません。私たちの知る限り、これは1000億パラメータを超えるモデルに成功裏に適用された最初の分散トレーニングフレームワークです。
English
The distributed training of foundation models, particularly large language
models (LLMs), demands a high level of communication. Consequently, it is
highly dependent on a centralized cluster with fast and reliable interconnects.
Can we conduct training on slow networks and thereby unleash the power of
decentralized clusters when dealing with models exceeding 100 billion
parameters? In this paper, we propose DiLoCoX, a low-communication large-scale
decentralized cluster training framework. It combines Pipeline Parallelism with
Dual Optimizer Policy, One-Step-Delay Overlap of Communication and Local
Training, and an Adaptive Gradient Compression Scheme. This combination
significantly improves the scale of parameters and the speed of model
pre-training. We justify the benefits of one-step-delay overlap of
communication and local training, as well as the adaptive gradient compression
scheme, through a theoretical analysis of convergence. Empirically, we
demonstrate that DiLoCoX is capable of pre-training a 107B foundation model
over a 1Gbps network. Compared to vanilla AllReduce, DiLoCoX can achieve a 357x
speedup in distributed training while maintaining negligible degradation in
model convergence. To the best of our knowledge, this is the first
decentralized training framework successfully applied to models with over 100
billion parameters.