ChatPaper.aiChatPaper

C4: 통신 주도 접근법을 통한 대규모 병렬 훈련 효율성 향상

Boosting Large-scale Parallel Training Efficiency with C4: A Communication-Driven Approach

June 7, 2024
저자: Jianbo Dong, Bin Luo, Jun Zhang, Pengcheng Zhang, Fei Feng, Yikai Zhu, Ang Liu, Zian Chen, Yi Shi, Hairong Jiao, Gang Lu, Yu Guan, Ennan Zhai, Wencong Xiao, Hanyu Zhao, Man Yuan, Siran Yang, Xiang Li, Jiamang Wang, Rui Men, Jianwei Zhang, Huang Zhong, Dennis Cai, Yuan Xie, Binzhang Fu
cs.AI

초록

대규모 언어 모델(LLM)의 등장으로 단일 모델을 학습시키기 위해 수천 개의 GPU를 활용하는 병렬 학습 기법의 도입이 필수적이 되었습니다. 그러나 현재의 병렬 학습 효율성은 종종 최적에 미치지 못하는데, 이는 주로 다음 두 가지 주요 문제 때문입니다. 첫째, 하드웨어 고장은 불가피하며, 이로 인해 학습 작업이 중단됩니다. 고장난 구성 요소를 신속히 식별하지 못하면 GPU 자원이 상당히 낭비됩니다. 둘째, GPU는 다음 계산 라운드로 진행하기 전에 매개변수 동기화가 완료될 때까지 대기해야 하므로, 네트워크 혼잡은 GPU의 대기 시간을 크게 증가시킬 수 있습니다. 이러한 문제를 해결하기 위해 본 논문에서는 통신 주도형 솔루션인 C4를 제안합니다. C4의 핵심 통찰은 두 가지입니다. 첫째, 병렬 학습에서 집단 통신은 주기적이고 균일한 특성을 보이므로, 모든 이상 현상은 어떤 형태의 하드웨어 고장 때문임이 확실합니다. 이 특징을 활용하여 C4는 고장난 구성 요소를 신속히 식별하고, 이상 현상을 빠르게 격리하며, 작업을 재시작함으로써 이상 감지 지연으로 인한 자원 낭비를 방지합니다. 둘째, 집단 통신의 예측 가능한 통신 모델은 적은 수의 대규모 데이터 흐름을 포함하므로, C4는 트래픽 계획을 효율적으로 실행하여 네트워크 혼잡을 크게 줄일 수 있습니다. C4는 우리의 생산 시스템 전반에 광범위하게 구현되어, 오류로 인한 오버헤드를 약 30% 줄이고, 통신 비용이 중간 정도인 특정 애플리케이션의 런타임 성능을 약 15% 향상시켰습니다.
English
The emergence of Large Language Models (LLMs) has necessitated the adoption of parallel training techniques, involving the deployment of thousands of GPUs to train a single model. Unfortunately, we have found that the efficiency of current parallel training is often suboptimal, largely due to the following two main issues. Firstly, hardware failures are inevitable, leading to interruptions in the training tasks. The inability to quickly identify the faulty components results in a substantial waste of GPU resources. Secondly, since GPUs must wait for parameter synchronization to complete before proceeding to the next round of computation, network congestions can greatly increase the waiting time for GPUs. To address these challenges, this paper introduces a communication-driven solution, namely the C4. The key insights of C4 are two folds. First, in parallel training, collective communication exhibits periodic and homogeneous characteristics, so any anomalies are certainly due to some form of hardware malfunction. By leveraging this feature, C4 can rapidly identify the faulty components, swiftly isolate the anomaly, and restart the task, thereby avoiding resource wastage caused by delays in anomaly detection. Second, the predictable communication model of collective communication, involving few large flows, allows C4 to efficiently execute traffic planning, substantially reducing network congestion. C4 has been extensively implemented across our production systems, cutting error-induced overhead by roughly 30% and enhancing runtime performance by about 15% for certain applications with moderate communication costs.

Summary

AI-Generated Summary

PDF80December 8, 2024