DiLoCoX: Низкокоммуникационная масштабируемая система обучения для децентрализованных кластеров
DiLoCoX: A Low-Communication Large-Scale Training Framework for Decentralized Cluster
June 26, 2025
Авторы: Ji Qi, WenPeng Zhu, Li Li, Ming Wu, YingJun Wu, Wu He, Xun Gao, Jason Zeng, Michael Heinrich
cs.AI
Аннотация
Распределенное обучение базовых моделей, особенно крупных языковых моделей (LLM), требует высокого уровня коммуникации. Следовательно, оно сильно зависит от централизованного кластера с быстрыми и надежными соединениями. Возможно ли проводить обучение на медленных сетях и тем самым раскрыть потенциал децентрализованных кластеров при работе с моделями, превышающими 100 миллиардов параметров? В данной статье мы предлагаем DiLoCoX — низкокоммуникационную масштабируемую структуру для децентрализованного обучения в кластерах. Она сочетает в себе конвейерный параллелизм с политикой двойного оптимизатора, одношаговое перекрытие коммуникации и локального обучения, а также адаптивную схему сжатия градиентов. Такое сочетание значительно улучшает масштабируемость параметров и скорость предварительного обучения модели. Мы обосновываем преимущества одношагового перекрытия коммуникации и локального обучения, а также адаптивной схемы сжатия градиентов, с помощью теоретического анализа сходимости. Экспериментально мы демонстрируем, что DiLoCoX способен проводить предварительное обучение базовой модели с 107 миллиардами параметров в сети со скоростью 1 Гбит/с. По сравнению с классическим подходом AllReduce, DiLoCoX может достичь ускорения распределенного обучения в 357 раз при сохранении незначительного ухудшения сходимости модели. Насколько нам известно, это первая децентрализованная структура обучения, успешно примененная к моделям с более чем 100 миллиардами параметров.
English
The distributed training of foundation models, particularly large language
models (LLMs), demands a high level of communication. Consequently, it is
highly dependent on a centralized cluster with fast and reliable interconnects.
Can we conduct training on slow networks and thereby unleash the power of
decentralized clusters when dealing with models exceeding 100 billion
parameters? In this paper, we propose DiLoCoX, a low-communication large-scale
decentralized cluster training framework. It combines Pipeline Parallelism with
Dual Optimizer Policy, One-Step-Delay Overlap of Communication and Local
Training, and an Adaptive Gradient Compression Scheme. This combination
significantly improves the scale of parameters and the speed of model
pre-training. We justify the benefits of one-step-delay overlap of
communication and local training, as well as the adaptive gradient compression
scheme, through a theoretical analysis of convergence. Empirically, we
demonstrate that DiLoCoX is capable of pre-training a 107B foundation model
over a 1Gbps network. Compared to vanilla AllReduce, DiLoCoX can achieve a 357x
speedup in distributed training while maintaining negligible degradation in
model convergence. To the best of our knowledge, this is the first
decentralized training framework successfully applied to models with over 100
billion parameters.