Предобучение большой языковой модели с использованием распределенных графических процессоров: Эффективная по памяти децентрализованная парадигма

Аннотация

Предварительное обучение больших языковых моделей (LLM) традиционно требует использования централизованных кластеров с тысячами высокопроизводительных GPU с большим объемом памяти (например, H100/A100). Современные децентрализованные методы обучения снижают коммуникационные издержки за счет применения федеративной оптимизации, однако они по-прежнему требуют обучения всей модели на каждом узле, оставаясь ограниченными пропускной способностью памяти GPU. В данной работе мы предлагаем SPES (SParse Expert Synchronization) — ресурсосберегающую децентрализованную платформу для предварительного обучения LLM с архитектурой смеси экспертов (MoE). SPES обучает только подмножество экспертов на каждом узле, что существенно снижает требования к памяти. Каждый узел обновляет своих локальных экспертов и периодически синхронизируется с другими узлами, исключая передачу полного набора параметров, но обеспечивая эффективный обмен знаниями. Для ускорения сходимости мы вводим стратегию прогрева с объединением экспертов, при которой эксперты обмениваются знаниями на ранних этапах обучения для быстрого формирования базовых компетенций. С помощью SPES мы обучили MoE-модель с 2 млрд параметров на 16 автономных GPU с 48 ГБ памяти через интернет-соединения; модель демонстрирует конкурентоспособные результаты с централизованно обученными LLM при сопоставимых вычислительных затратах. Мы также демонстрируем масштабируемость, обучив с нуля модель на 7 млрд параметров и апгрейдив до 9 млрд параметров модель из плотного контрольного пункта — обе соответствуют предыдущим централизованным базовым показателям. Наш код доступен по адресу https://github.com/zjr2000/SPES.

English

Pretraining large language models (LLMs) typically requires centralized clusters with thousands of high-memory GPUs (e.g., H100/A100). Recent decentralized training methods reduce communication overhead by employing federated optimization; however, they still need to train the entire model on each node, remaining constrained by GPU memory limitations. In this work, we propose SParse Expert Synchronization (SPES), a memory-efficient decentralized framework for pretraining mixture-of-experts (MoE) LLMs. SPES trains only a subset of experts per node, substantially lowering the memory footprint. Each node updates its local experts and periodically synchronizes with other nodes, eliminating full-parameter transmission while ensuring efficient knowledge sharing. To accelerate convergence, we introduce an expert-merging warm-up strategy, where experts exchange knowledge early in training, to rapidly establish foundational capabilities. With SPES, we train a 2B-parameter MoE LLM using 16 standalone 48GB GPUs over internet connections, which achieves competitive performance with centrally trained LLMs under similar computational budgets. We further demonstrate scalability by training a 7B model from scratch and a 9B model upcycled from a dense checkpoint, both of which match prior centralized baselines. Our code is available at https://github.com/zjr2000/SPES.

Предобучение большой языковой модели с использованием распределенных графических процессоров: Эффективная по памяти децентрализованная парадигма

Pretraining A Large Language Model using Distributed GPUs: A Memory-Efficient Decentralized Paradigm

Аннотация

Support