C4: 通信駆動型アプローチによる大規模並列トレーニング効率の向上
Boosting Large-scale Parallel Training Efficiency with C4: A Communication-Driven Approach
June 7, 2024
著者: Jianbo Dong, Bin Luo, Jun Zhang, Pengcheng Zhang, Fei Feng, Yikai Zhu, Ang Liu, Zian Chen, Yi Shi, Hairong Jiao, Gang Lu, Yu Guan, Ennan Zhai, Wencong Xiao, Hanyu Zhao, Man Yuan, Siran Yang, Xiang Li, Jiamang Wang, Rui Men, Jianwei Zhang, Huang Zhong, Dennis Cai, Yuan Xie, Binzhang Fu
cs.AI
要旨
大規模言語モデル(LLMs)の出現に伴い、数千のGPUを活用した並列学習技術の採用が不可欠となっています。しかし、現在の並列学習の効率性はしばしば最適とは言えず、その主な原因として以下の2点が挙げられます。第一に、ハードウェアの故障は避けられず、学習タスクが中断されることがあります。故障したコンポーネントを迅速に特定できないため、GPUリソースが大幅に無駄になってしまいます。第二に、GPUは次の計算ラウンドに進む前にパラメータ同期が完了するのを待つ必要があるため、ネットワークの混雑がGPUの待機時間を大幅に増加させます。これらの課題に対処するため、本論文では通信駆動型のソリューションであるC4を提案します。C4の核心的な洞察は2つあります。第一に、並列学習において、集団通信は周期的で均質な特性を示すため、何らかの異常は必ずハードウェアの故障に起因します。この特性を活用することで、C4は故障したコンポーネントを迅速に特定し、異常を素早く隔離してタスクを再開し、異常検出の遅延によるリソースの無駄を回避します。第二に、集団通信の予測可能な通信モデルは、少数の大規模なフローを含むため、C4はトラフィック計画を効率的に実行し、ネットワークの混雑を大幅に軽減できます。C4は我々の生産システムに広く実装されており、エラーによるオーバーヘッドを約30%削減し、通信コストが中程度の特定のアプリケーションにおいて実行性能を約15%向上させています。
English
The emergence of Large Language Models (LLMs) has necessitated the adoption
of parallel training techniques, involving the deployment of thousands of GPUs
to train a single model. Unfortunately, we have found that the efficiency of
current parallel training is often suboptimal, largely due to the following two
main issues. Firstly, hardware failures are inevitable, leading to
interruptions in the training tasks. The inability to quickly identify the
faulty components results in a substantial waste of GPU resources. Secondly,
since GPUs must wait for parameter synchronization to complete before
proceeding to the next round of computation, network congestions can greatly
increase the waiting time for GPUs. To address these challenges, this paper
introduces a communication-driven solution, namely the C4. The key insights of
C4 are two folds. First, in parallel training, collective communication
exhibits periodic and homogeneous characteristics, so any anomalies are
certainly due to some form of hardware malfunction. By leveraging this feature,
C4 can rapidly identify the faulty components, swiftly isolate the anomaly, and
restart the task, thereby avoiding resource wastage caused by delays in anomaly
detection. Second, the predictable communication model of collective
communication, involving few large flows, allows C4 to efficiently execute
traffic planning, substantially reducing network congestion. C4 has been
extensively implemented across our production systems, cutting error-induced
overhead by roughly 30% and enhancing runtime performance by about 15% for
certain applications with moderate communication costs.Summary
AI-Generated Summary