ChatPaper.aiChatPaper

分散型GPUを用いた大規模言語モデルの事前学習:メモリ効率の良い分散パラダイム

Pretraining A Large Language Model using Distributed GPUs: A Memory-Efficient Decentralized Paradigm

February 12, 2026
著者: Jinrui Zhang, Chaodong Xiao, Aoqi Wu, Xindong Zhang, Lei Zhang
cs.AI

要旨

大規模言語モデル(LLM)の事前学習には、通常、数千台の大容量GPU(H100/A100など)を搭載した集中型クラスタが必要である。近年の分散型学習手法は、連携最適化を採用することで通信オーバーヘッドを削減しているが、各ノードでモデル全体を学習する必要があり、GPUメモリの制約は依然として残っている。本研究では、MoE(Mixture of Experts)構造を持つLLMの事前学習におけるメモリ効率の高い分散型フレームワーク「SParse Expert Synchronization(SPES)」を提案する。SPESはノードごとに専門家の一部のみを学習するため、メモリ使用量を大幅に削減する。各ノードは自身の専門家を更新し、定期的に他のノードと同期を行う。これにより、全パラメータの送信を排除しつつ、効率的な知識共有を実現する。収束を加速させるため、訓練の初期段階で専門家間で知識を交換する専門家統合ウォームアップ戦略を導入し、基礎能力を迅速に構築する。SPESを用いて、16台のスタンドアロン48GB GPUとインターネット接続環境で2BパラメータのMoE LLMを学習した結果、同程度の計算リソースで集中学習されたLLMと遜色ない性能を達成した。さらに、7Bモデルのスクラッチ学習と、密なチェックポイントからアップサイクルした9Bモデルの学習により、拡張性を実証した。両モデルは既存の集中型ベースラインと同等の性能を示した。コードはhttps://github.com/zjr2000/SPES で公開している。
English
Pretraining large language models (LLMs) typically requires centralized clusters with thousands of high-memory GPUs (e.g., H100/A100). Recent decentralized training methods reduce communication overhead by employing federated optimization; however, they still need to train the entire model on each node, remaining constrained by GPU memory limitations. In this work, we propose SParse Expert Synchronization (SPES), a memory-efficient decentralized framework for pretraining mixture-of-experts (MoE) LLMs. SPES trains only a subset of experts per node, substantially lowering the memory footprint. Each node updates its local experts and periodically synchronizes with other nodes, eliminating full-parameter transmission while ensuring efficient knowledge sharing. To accelerate convergence, we introduce an expert-merging warm-up strategy, where experts exchange knowledge early in training, to rapidly establish foundational capabilities. With SPES, we train a 2B-parameter MoE LLM using 16 standalone 48GB GPUs over internet connections, which achieves competitive performance with centrally trained LLMs under similar computational budgets. We further demonstrate scalability by training a 7B model from scratch and a 9B model upcycled from a dense checkpoint, both of which match prior centralized baselines. Our code is available at https://github.com/zjr2000/SPES.
PDF21February 14, 2026