Pré-treinamento de um Grande Modelo de Linguagem usando GPUs Distribuídas: Um Paradigma Descentralizado com Eficiência de Memória

Resumo

O pré-treinamento de grandes modelos de linguagem (LLMs) geralmente requer clusters centralizados com milhares de GPUs de alta memória (por exemplo, H100/A100). Métodos recentes de treinamento descentralizado reduzem a sobrecarga de comunicação empregando otimização federada; no entanto, eles ainda precisam treinar o modelo inteiro em cada nó, permanecendo limitados pelas restrições de memória da GPU. Neste trabalho, propomos o SPES (SParse Expert Synchronization), um framework descentralizado e eficiente em memória para pré-treinar LLMs do tipo mistura de especialistas (MoE). O SPES treina apenas um subconjunto de especialistas por nó, reduzindo substancialmente a pegada de memória. Cada nó atualiza seus especialistas locais e periodicamente sincroniza com outros nós, eliminando a transmissão de parâmetros completos enquanto garante um compartilhamento eficiente de conhecimento. Para acelerar a convergência, introduzimos uma estratégia de aquecimento por fusão de especialistas, na qual os especialistas trocam conhecimento no início do treinamento para estabelecer rapidamente capacidades fundamentais. Com o SPES, treinamos um LLM MoE de 2B parâmetros usando 16 GPUs independentes de 48GB em conexões de internet, o que alcança um desempenho competitivo com LLMs treinados centralmente sob orçamentos computacionais semelhantes. Demonstramos ainda a escalabilidade treinando um modelo de 7B do zero e um modelo de 9B reciclado a partir de um *checkpoint* denso, ambos equiparando-se a *baselines* centralizadas anteriores. Nosso código está disponível em https://github.com/zjr2000/SPES.

English

Pretraining large language models (LLMs) typically requires centralized clusters with thousands of high-memory GPUs (e.g., H100/A100). Recent decentralized training methods reduce communication overhead by employing federated optimization; however, they still need to train the entire model on each node, remaining constrained by GPU memory limitations. In this work, we propose SParse Expert Synchronization (SPES), a memory-efficient decentralized framework for pretraining mixture-of-experts (MoE) LLMs. SPES trains only a subset of experts per node, substantially lowering the memory footprint. Each node updates its local experts and periodically synchronizes with other nodes, eliminating full-parameter transmission while ensuring efficient knowledge sharing. To accelerate convergence, we introduce an expert-merging warm-up strategy, where experts exchange knowledge early in training, to rapidly establish foundational capabilities. With SPES, we train a 2B-parameter MoE LLM using 16 standalone 48GB GPUs over internet connections, which achieves competitive performance with centrally trained LLMs under similar computational budgets. We further demonstrate scalability by training a 7B model from scratch and a 9B model upcycled from a dense checkpoint, both of which match prior centralized baselines. Our code is available at https://github.com/zjr2000/SPES.

Pré-treinamento de um Grande Modelo de Linguagem usando GPUs Distribuídas: Um Paradigma Descentralizado com Eficiência de Memória

Pretraining A Large Language Model using Distributed GPUs: A Memory-Efficient Decentralized Paradigm

Resumo

Support