분산 GPU를 활용한 대규모 언어 모델 사전 학습: 메모리 효율적인 분산 패러다임
Pretraining A Large Language Model using Distributed GPUs: A Memory-Efficient Decentralized Paradigm
February 12, 2026
저자: Jinrui Zhang, Chaodong Xiao, Aoqi Wu, Xindong Zhang, Lei Zhang
cs.AI
초록
대규모 언어 모델(LLM)의 사전 학습은 일반적으로 수천 개의 고용량 GPU(예: H100/A100)로 구성된 중앙 집중식 클러스터가 필요합니다. 최근의 분산 학습 방법은 연합 최적화를 통해 통신 오버헤드를 줄이지만, 각 노드에서 전체 모델을 학습해야 하므로 GPU 메모리 한계에 여전히 제약을 받습니다. 본 연구에서는 MoE(Mixture-of-Experts) LLM의 메모리 효율적인 분산 사전 학습 프레임워크인 SPES(SParse Expert Synchronization)를 제안합니다. SPES는 노드당 전문가 일부만을 학습하여 메모리 사용량을 크게 줄입니다. 각 노드는 로컬 전문가를 업데이트하고 주기적으로 다른 노드와 동기화하며, 전체 매개변수 전송을 제거하면서도 효율적인 지식 공유를 보장합니다. 수렴 속도를 높이기 위해, 학습 초기 단계에 전문가들이 지식을 교환하여 기초 능력을 빠르게 확립하는 전문가 병합 워밍업 전략을 도입했습니다. SPES를 통해 16개의 독립형 48GB GPU와 인터넷 연결만으로 20억 매개변수 MoE LLM을 학습했으며, 이는 유사한 계산 예산으로 중앙 집중식으로 학습된 LLM과 경쟁력 있는 성능을 달성했습니다. 더 나아가, 처음부터 학습한 70억 매개변수 모델과 밀집 체크포인트에서 업사이클링한 90억 매개변수 모델 학습을 통해 확장성을 입증했으며, 두 모델 모두 기존 중앙 집중식 기준선과 일치하는 성능을 보였습니다. 코드는 https://github.com/zjr2000/SPES에서 확인할 수 있습니다.
English
Pretraining large language models (LLMs) typically requires centralized clusters with thousands of high-memory GPUs (e.g., H100/A100). Recent decentralized training methods reduce communication overhead by employing federated optimization; however, they still need to train the entire model on each node, remaining constrained by GPU memory limitations. In this work, we propose SParse Expert Synchronization (SPES), a memory-efficient decentralized framework for pretraining mixture-of-experts (MoE) LLMs. SPES trains only a subset of experts per node, substantially lowering the memory footprint. Each node updates its local experts and periodically synchronizes with other nodes, eliminating full-parameter transmission while ensuring efficient knowledge sharing. To accelerate convergence, we introduce an expert-merging warm-up strategy, where experts exchange knowledge early in training, to rapidly establish foundational capabilities. With SPES, we train a 2B-parameter MoE LLM using 16 standalone 48GB GPUs over internet connections, which achieves competitive performance with centrally trained LLMs under similar computational budgets. We further demonstrate scalability by training a 7B model from scratch and a 9B model upcycled from a dense checkpoint, both of which match prior centralized baselines. Our code is available at https://github.com/zjr2000/SPES.