ChatPaper.aiChatPaper

DiLoCoX: 분산 클러스터를 위한 저통신 대규모 학습 프레임워크

DiLoCoX: A Low-Communication Large-Scale Training Framework for Decentralized Cluster

June 26, 2025
저자: Ji Qi, WenPeng Zhu, Li Li, Ming Wu, YingJun Wu, Wu He, Xun Gao, Jason Zeng, Michael Heinrich
cs.AI

초록

기초 모델, 특히 대규모 언어 모델(LLMs)의 분산 학습은 높은 수준의 통신을 요구합니다. 이로 인해 빠르고 안정적인 상호 연결을 갖춘 중앙 집중식 클러스터에 크게 의존하게 됩니다. 1000억 개 이상의 파라미터를 가진 모델을 다룰 때, 느린 네트워크에서도 학습을 수행하여 분산 클러스터의 잠재력을 발휘할 수 있을까요? 본 논문에서는 DiLoCoX라는 저통신 대규모 분산 클러스터 학습 프레임워크를 제안합니다. 이 프레임워크는 파이프라인 병렬화(Pipeline Parallelism), 듀얼 옵티마이저 정책(Dual Optimizer Policy), 통신과 로컬 학습의 원스텝 딜레이 중첩(One-Step-Delay Overlap of Communication and Local Training), 그리고 적응형 그래디언트 압축 기법(Adaptive Gradient Compression Scheme)을 결합합니다. 이러한 조합은 파라미터 규모와 모델 사전 학습 속도를 크게 향상시킵니다. 우리는 통신과 로컬 학습의 원스텝 딜레이 중첩 및 적응형 그래디언트 압축 기법의 이점을 수렴 이론 분석을 통해 입증합니다. 실험적으로, DiLoCoX가 1Gbps 네트워크에서 1070억 파라미터 기초 모델을 사전 학습할 수 있음을 보여줍니다. 기본 AllReduce와 비교했을 때, DiLoCoX는 모델 수렴에 미미한 저하만을 유지하면서 분산 학습 속도를 357배까지 향상시킬 수 있습니다. 우리가 아는 한, 이는 1000억 개 이상의 파라미터를 가진 모델에 성공적으로 적용된 최초의 분산 학습 프레임워크입니다.
English
The distributed training of foundation models, particularly large language models (LLMs), demands a high level of communication. Consequently, it is highly dependent on a centralized cluster with fast and reliable interconnects. Can we conduct training on slow networks and thereby unleash the power of decentralized clusters when dealing with models exceeding 100 billion parameters? In this paper, we propose DiLoCoX, a low-communication large-scale decentralized cluster training framework. It combines Pipeline Parallelism with Dual Optimizer Policy, One-Step-Delay Overlap of Communication and Local Training, and an Adaptive Gradient Compression Scheme. This combination significantly improves the scale of parameters and the speed of model pre-training. We justify the benefits of one-step-delay overlap of communication and local training, as well as the adaptive gradient compression scheme, through a theoretical analysis of convergence. Empirically, we demonstrate that DiLoCoX is capable of pre-training a 107B foundation model over a 1Gbps network. Compared to vanilla AllReduce, DiLoCoX can achieve a 357x speedup in distributed training while maintaining negligible degradation in model convergence. To the best of our knowledge, this is the first decentralized training framework successfully applied to models with over 100 billion parameters.
PDF41June 27, 2025