Preentrenamiento de un Modelo de Lenguaje Grande utilizando GPUs Distribuidas: Un Paradigma Descentralizado Eficiente en Memoria

Resumen

El preentrenamiento de modelos de lenguaje grandes (LLM) generalmente requiere clústeres centralizados con miles de GPU de alta memoria (por ejemplo, H100/A100). Los métodos recientes de entrenamiento descentralizado reducen la sobrecarga de comunicación mediante el uso de optimización federada; sin embargo, aún necesitan entrenar el modelo completo en cada nodo, lo que los mantiene limitados por las restricciones de memoria de las GPU. En este trabajo, proponemos Sincronización de Expertos Dispersos (SPES), un marco descentralizado eficiente en memoria para el preentrenamiento de LLM de mezcla de expertos (MoE). SPES entrena solo un subconjunto de expertos por nodo, reduciendo sustancialmente la huella de memoria. Cada nodo actualiza sus expertos locales y se sincroniza periódicamente con otros nodos, eliminando la transmisión de parámetros completos mientras garantiza un intercambio de conocimiento eficiente. Para acelerar la convergencia, introducimos una estrategia de calentamiento por fusión de expertos, donde los expertos intercambian conocimiento en las primeras etapas del entrenamiento para establecer rápidamente capacidades fundamentales. Con SPES, entrenamos un LLM MoE de 2B parámetros utilizando 16 GPU independientes de 48GB a través de conexiones a Internet, el cual logra un rendimiento competitivo con LLM entrenados centralmente bajo presupuestos computacionales similares. Además, demostramos escalabilidad entrenando un modelo de 7B desde cero y un modelo de 9B reciclado a partir de un *checkpoint* denso, ambos igualando líneas de base centralizadas previas. Nuestro código está disponible en https://github.com/zjr2000/SPES.

English

Pretraining large language models (LLMs) typically requires centralized clusters with thousands of high-memory GPUs (e.g., H100/A100). Recent decentralized training methods reduce communication overhead by employing federated optimization; however, they still need to train the entire model on each node, remaining constrained by GPU memory limitations. In this work, we propose SParse Expert Synchronization (SPES), a memory-efficient decentralized framework for pretraining mixture-of-experts (MoE) LLMs. SPES trains only a subset of experts per node, substantially lowering the memory footprint. Each node updates its local experts and periodically synchronizes with other nodes, eliminating full-parameter transmission while ensuring efficient knowledge sharing. To accelerate convergence, we introduce an expert-merging warm-up strategy, where experts exchange knowledge early in training, to rapidly establish foundational capabilities. With SPES, we train a 2B-parameter MoE LLM using 16 standalone 48GB GPUs over internet connections, which achieves competitive performance with centrally trained LLMs under similar computational budgets. We further demonstrate scalability by training a 7B model from scratch and a 9B model upcycled from a dense checkpoint, both of which match prior centralized baselines. Our code is available at https://github.com/zjr2000/SPES.

Preentrenamiento de un Modelo de Lenguaje Grande utilizando GPUs Distribuidas: Un Paradigma Descentralizado Eficiente en Memoria

Pretraining A Large Language Model using Distributed GPUs: A Memory-Efficient Decentralized Paradigm

Resumen

Support