DiLoCoX: Um Framework de Treinamento em Grande Escala com Baixa Comunicação para Clusters Descentralizados
DiLoCoX: A Low-Communication Large-Scale Training Framework for Decentralized Cluster
June 26, 2025
Autores: Ji Qi, WenPeng Zhu, Li Li, Ming Wu, YingJun Wu, Wu He, Xun Gao, Jason Zeng, Michael Heinrich
cs.AI
Resumo
O treinamento distribuído de modelos de base, particularmente grandes modelos de linguagem (LLMs), exige um alto nível de comunicação. Consequentemente, ele é altamente dependente de um cluster centralizado com interconexões rápidas e confiáveis. Podemos realizar o treinamento em redes lentas e, assim, liberar o poder de clusters descentralizados ao lidar com modelos que excedem 100 bilhões de parâmetros? Neste artigo, propomos o DiLoCoX, uma estrutura de treinamento descentralizada em larga escala com baixa comunicação. Ele combina Paralelismo de Pipeline com Política de Duplo Otimizador, Sobreposição de Comunicação e Treinamento Local com Atraso de Um Passo, e um Esquema de Compressão Adaptativa de Gradientes. Essa combinação melhora significativamente a escala de parâmetros e a velocidade de pré-treinamento do modelo. Justificamos os benefícios da sobreposição de comunicação e treinamento local com atraso de um passo, bem como do esquema de compressão adaptativa de gradientes, por meio de uma análise teórica de convergência. Empiricamente, demonstramos que o DiLoCoX é capaz de pré-treinar um modelo de base de 107B em uma rede de 1Gbps. Em comparação com o AllReduce convencional, o DiLoCoX pode alcançar uma aceleração de 357x no treinamento distribuído, mantendo uma degradação insignificante na convergência do modelo. Até onde sabemos, esta é a primeira estrutura de treinamento descentralizada aplicada com sucesso a modelos com mais de 100 bilhões de parâmetros.
English
The distributed training of foundation models, particularly large language
models (LLMs), demands a high level of communication. Consequently, it is
highly dependent on a centralized cluster with fast and reliable interconnects.
Can we conduct training on slow networks and thereby unleash the power of
decentralized clusters when dealing with models exceeding 100 billion
parameters? In this paper, we propose DiLoCoX, a low-communication large-scale
decentralized cluster training framework. It combines Pipeline Parallelism with
Dual Optimizer Policy, One-Step-Delay Overlap of Communication and Local
Training, and an Adaptive Gradient Compression Scheme. This combination
significantly improves the scale of parameters and the speed of model
pre-training. We justify the benefits of one-step-delay overlap of
communication and local training, as well as the adaptive gradient compression
scheme, through a theoretical analysis of convergence. Empirically, we
demonstrate that DiLoCoX is capable of pre-training a 107B foundation model
over a 1Gbps network. Compared to vanilla AllReduce, DiLoCoX can achieve a 357x
speedup in distributed training while maintaining negligible degradation in
model convergence. To the best of our knowledge, this is the first
decentralized training framework successfully applied to models with over 100
billion parameters.