Préentraînement d'un grand modèle de langage à l'aide de GPU distribués : un paradigme décentralisé économe en mémoire

papers.abstract

Le pré-entraînement de grands modèles de langage (LLM) nécessite généralement des grappes centralisées équipées de milliers de GPU à haute mémoire (par exemple, H100/A100). Les méthodes récentes d'entraînement décentralisé réduisent la surcharge de communication en employant une optimisation fédérée ; cependant, elles doivent encore entraîner l'intégralité du modèle sur chaque nœud, restant ainsi limitées par les contraintes mémoire des GPU. Dans ce travail, nous proposons SPES (SParse Expert Synchronization), un cadre décentralisé économe en mémoire pour le pré-entraînement de LLM à mixture d'experts (MoE). SPES n'entraîne qu'un sous-ensemble d'experts par nœud, réduisant considérablement l'empreinte mémoire. Chaque nœud met à jour ses experts locaux et se synchronise périodiquement avec les autres nœuds, éliminant ainsi la transmission des paramètres complets tout en assurant un partage efficace des connaissances. Pour accélérer la convergence, nous introduisons une stratégie d'échauffement par fusion d'experts, où les experts échangent des connaissances en début d'entraînement pour établir rapidement des capacités fondamentales. Avec SPES, nous avons entraîné un LLM MoE de 2 milliards de paramètres en utilisant 16 GPU autonomes de 48 GB sur des connexions internet, atteignant des performances comparables à celles des LLM entraînés de manière centralisée avec des budgets computationnels similaires. Nous démontrons en outre l'évolutivité en entraînant un modèle de 7B à partir de zéro et un modèle de 9B recyclé à partir d'un point de contrôle dense, lesquels égalent les performances des références centralisées antérieures. Notre code est disponible à l'adresse https://github.com/zjr2000/SPES.

English

Pretraining large language models (LLMs) typically requires centralized clusters with thousands of high-memory GPUs (e.g., H100/A100). Recent decentralized training methods reduce communication overhead by employing federated optimization; however, they still need to train the entire model on each node, remaining constrained by GPU memory limitations. In this work, we propose SParse Expert Synchronization (SPES), a memory-efficient decentralized framework for pretraining mixture-of-experts (MoE) LLMs. SPES trains only a subset of experts per node, substantially lowering the memory footprint. Each node updates its local experts and periodically synchronizes with other nodes, eliminating full-parameter transmission while ensuring efficient knowledge sharing. To accelerate convergence, we introduce an expert-merging warm-up strategy, where experts exchange knowledge early in training, to rapidly establish foundational capabilities. With SPES, we train a 2B-parameter MoE LLM using 16 standalone 48GB GPUs over internet connections, which achieves competitive performance with centrally trained LLMs under similar computational budgets. We further demonstrate scalability by training a 7B model from scratch and a 9B model upcycled from a dense checkpoint, both of which match prior centralized baselines. Our code is available at https://github.com/zjr2000/SPES.

Préentraînement d'un grand modèle de langage à l'aide de GPU distribués : un paradigme décentralisé économe en mémoire

Pretraining A Large Language Model using Distributed GPUs: A Memory-Efficient Decentralized Paradigm

papers.abstract

Support