Pretraining van een groot taalmodel met gedistribueerde GPU's: een geheugenefficiënt gedecentraliseerd paradigma

Samenvatting

Het pretrainen van grote taalmmodellen (LLM's) vereist doorgaans gecentraliseerde clusters met duizenden GPU's met hoog geheugen (zoals H100/A100). Recente gedecentraliseerde trainingsmethoden verminderen de communicatie-overhead door gebruik te maken van gefedereerde optimalisatie; ze moeten echter nog steeds het volledige model op elke node trainen, waardoor ze beperkt blijven door GPU-geheugenbeperkingen. In dit werk stellen we SParse Expert Synchronization (SPES) voor, een geheugenefficiënt gedecentraliseerd framework voor het pretrainen van mixture-of-experts (MoE) LLM's. SPES traint slechts een subset van experts per node, waardoor de geheugenvoetafdruk aanzienlijk wordt verlaagd. Elke node werkt zijn lokale experts bij en synchroniseert periodiek met andere nodes, waardoor volledige parameteroverdracht wordt geëlimineerd en tegelijkertijd efficiënte kennisdeling wordt gegarandeerd. Om de convergentie te versnellen, introduceren we een expert-merging warm-up strategie, waarbij experts vroeg in de training kennis uitwisselen om snel fundamentele capaciteiten op te bouwen. Met SPES trainen we een MoE LLM met 2B parameters met behulp van 16 standalone 48GB GPU's via internetverbindingen, wat competitieve prestaties bereikt met centraal getrainde LLM's onder vergelijkbare rekenbudgetten. We demonstreren verder schaalbaarheid door een 7B-model vanaf nul te trainen en een 9B-model opgewaardeerd vanuit een dense checkpoint, die beide evenaren eerdere gecentraliseerde baselines. Onze code is beschikbaar op https://github.com/zjr2000/SPES.

English

Pretraining large language models (LLMs) typically requires centralized clusters with thousands of high-memory GPUs (e.g., H100/A100). Recent decentralized training methods reduce communication overhead by employing federated optimization; however, they still need to train the entire model on each node, remaining constrained by GPU memory limitations. In this work, we propose SParse Expert Synchronization (SPES), a memory-efficient decentralized framework for pretraining mixture-of-experts (MoE) LLMs. SPES trains only a subset of experts per node, substantially lowering the memory footprint. Each node updates its local experts and periodically synchronizes with other nodes, eliminating full-parameter transmission while ensuring efficient knowledge sharing. To accelerate convergence, we introduce an expert-merging warm-up strategy, where experts exchange knowledge early in training, to rapidly establish foundational capabilities. With SPES, we train a 2B-parameter MoE LLM using 16 standalone 48GB GPUs over internet connections, which achieves competitive performance with centrally trained LLMs under similar computational budgets. We further demonstrate scalability by training a 7B model from scratch and a 9B model upcycled from a dense checkpoint, both of which match prior centralized baselines. Our code is available at https://github.com/zjr2000/SPES.

Pretraining van een groot taalmodel met gedistribueerde GPU's: een geheugenefficiënt gedecentraliseerd paradigma

Pretraining A Large Language Model using Distributed GPUs: A Memory-Efficient Decentralized Paradigm

Samenvatting

Support