Pretraining eines großen Sprachmodells mit verteilten GPUs: Ein speichereffizientes dezentrales Paradigma

papers.abstract

Das Pretraining großer Sprachmodelle (LLMs) erfordert typischerweise zentralisierte Cluster mit Tausenden von Hochleistungs-GPUs mit großem Speicher (z.B. H100/A100). Neuere dezentrale Trainingsmethoden reduzieren den Kommunikationsaufwand durch den Einsatz federierter Optimierung; dennoch müssen sie weiterhin das gesamte Modell auf jedem Knoten trainieren und bleiben dadurch durch GPU-Speicherbeschränkungen eingeschränkt. In dieser Arbeit schlagen wir SParse Expert Synchronization (SPES) vor, einen speichereffizienten dezentralen Rahmen für das Pretraining von Mixture-of-Experts (MoE) LLMs. SPES trainiert nur eine Teilmenge der Experten pro Knoten, was den Speicherbedarf erheblich senkt. Jeder Knoten aktualisiert seine lokalen Experten und synchronisiert sich periodisch mit anderen Knoten, wodurch die Übertragung vollständiger Parameter entfällt, während eine effiziente Wissensweitergabe gewährleistet wird. Um die Konvergenz zu beschleunigen, führen wir eine Warm-up-Strategie durch Experten-Zusammenführung ein, bei der Experten in der frühen Trainingsphase Wissen austauschen, um schnell grundlegende Fähigkeiten aufzubauen. Mit SPES trainieren wir ein 2-Milliarden-Parameter MoE-LLM mit 16 eigenständigen 48GB-GPUs über Internetverbindungen, das eine wettbewerbsfähige Leistung im Vergleich zu zentral trainierten LLMs unter ähnlichen Rechenbudgets erzielt. Wir demonstrieren weiterhin die Skalierbarkeit, indem wir ein 7B-Modell von Grund auf trainieren und ein 9B-Modell aus einem dichten Checkpoint weiterentwickeln, die beide mit früheren zentralisierten Baseline-Modellen vergleichbar sind. Unser Code ist verfügbar unter https://github.com/zjr2000/SPES.

English

Pretraining large language models (LLMs) typically requires centralized clusters with thousands of high-memory GPUs (e.g., H100/A100). Recent decentralized training methods reduce communication overhead by employing federated optimization; however, they still need to train the entire model on each node, remaining constrained by GPU memory limitations. In this work, we propose SParse Expert Synchronization (SPES), a memory-efficient decentralized framework for pretraining mixture-of-experts (MoE) LLMs. SPES trains only a subset of experts per node, substantially lowering the memory footprint. Each node updates its local experts and periodically synchronizes with other nodes, eliminating full-parameter transmission while ensuring efficient knowledge sharing. To accelerate convergence, we introduce an expert-merging warm-up strategy, where experts exchange knowledge early in training, to rapidly establish foundational capabilities. With SPES, we train a 2B-parameter MoE LLM using 16 standalone 48GB GPUs over internet connections, which achieves competitive performance with centrally trained LLMs under similar computational budgets. We further demonstrate scalability by training a 7B model from scratch and a 9B model upcycled from a dense checkpoint, both of which match prior centralized baselines. Our code is available at https://github.com/zjr2000/SPES.

Pretraining eines großen Sprachmodells mit verteilten GPUs: Ein speichereffizientes dezentrales Paradigma

Pretraining A Large Language Model using Distributed GPUs: A Memory-Efficient Decentralized Paradigm

papers.abstract

Support