DiLoCoX: Низкокоммуникационная масштабируемая система обучения для децентрализованных кластеров

Аннотация

Распределенное обучение базовых моделей, особенно крупных языковых моделей (LLM), требует высокого уровня коммуникации. Следовательно, оно сильно зависит от централизованного кластера с быстрыми и надежными соединениями. Возможно ли проводить обучение на медленных сетях и тем самым раскрыть потенциал децентрализованных кластеров при работе с моделями, превышающими 100 миллиардов параметров? В данной статье мы предлагаем DiLoCoX — низкокоммуникационную масштабируемую структуру для децентрализованного обучения в кластерах. Она сочетает в себе конвейерный параллелизм с политикой двойного оптимизатора, одношаговое перекрытие коммуникации и локального обучения, а также адаптивную схему сжатия градиентов. Такое сочетание значительно улучшает масштабируемость параметров и скорость предварительного обучения модели. Мы обосновываем преимущества одношагового перекрытия коммуникации и локального обучения, а также адаптивной схемы сжатия градиентов, с помощью теоретического анализа сходимости. Экспериментально мы демонстрируем, что DiLoCoX способен проводить предварительное обучение базовой модели с 107 миллиардами параметров в сети со скоростью 1 Гбит/с. По сравнению с классическим подходом AllReduce, DiLoCoX может достичь ускорения распределенного обучения в 357 раз при сохранении незначительного ухудшения сходимости модели. Насколько нам известно, это первая децентрализованная структура обучения, успешно примененная к моделям с более чем 100 миллиардами параметров.

English

The distributed training of foundation models, particularly large language models (LLMs), demands a high level of communication. Consequently, it is highly dependent on a centralized cluster with fast and reliable interconnects. Can we conduct training on slow networks and thereby unleash the power of decentralized clusters when dealing with models exceeding 100 billion parameters? In this paper, we propose DiLoCoX, a low-communication large-scale decentralized cluster training framework. It combines Pipeline Parallelism with Dual Optimizer Policy, One-Step-Delay Overlap of Communication and Local Training, and an Adaptive Gradient Compression Scheme. This combination significantly improves the scale of parameters and the speed of model pre-training. We justify the benefits of one-step-delay overlap of communication and local training, as well as the adaptive gradient compression scheme, through a theoretical analysis of convergence. Empirically, we demonstrate that DiLoCoX is capable of pre-training a 107B foundation model over a 1Gbps network. Compared to vanilla AllReduce, DiLoCoX can achieve a 357x speedup in distributed training while maintaining negligible degradation in model convergence. To the best of our knowledge, this is the first decentralized training framework successfully applied to models with over 100 billion parameters.

DiLoCoX: Низкокоммуникационная масштабируемая система обучения для децентрализованных кластеров

DiLoCoX: A Low-Communication Large-Scale Training Framework for Decentralized Cluster

Аннотация

Support