Horizon-LM: Uma Arquitetura Centrada na RAM para o Treinamento de LLMs

Resumo

O rápido crescimento dos grandes modelos de linguagem (LLMs) superou a evolução do hardware de GPU única, tornando a escala do modelo cada vez mais limitada pela capacidade de memória e não pela computação. Embora os sistemas modernos de treinamento estendam a memória da GPU por meio de paralelismo distribuído e descarregamento (offloading) através de hierarquias de CPU e armazenamento, eles mantêm fundamentalmente um paradigma de execução centrado na GPU, no qual as GPUs hospedam réplicas persistentes do modelo e grafos completos de autograd. Como resultado, a escalagem de grandes modelos permanece fortemente acoplada a clusters multi-GPU, tempos de execução distribuídos complexos e consumo imprevisível de memória do host, criando barreiras substanciais para cargas de trabalho pós-treinamento em escala de nó, como ajuste fino por instrução (instruction tuning), alinhamento (alignment) e adaptação de domínio. Apresentamos o Horizon-LM, um sistema de treinamento centrado na memória que redefine os papéis da CPU e da GPU para a otimização de grandes modelos. O Horizon-LM trata a memória do host como o repositório de parâmetros autoritativo e usa as GPUs apenas como unidades de computação transitórias por meio de um modelo de execução CPU-master, GPU-worker. Ao eliminar módulos persistentes residentes na GPU e grafos de autograd, empregar recomputação explícita com propagação manual de gradientes e introduzir um motor de execução pipeline com double-buffering, o Horizon-LM desacopla a escala do modelo do número de GPUs e limita o uso de memória à pegada teórica dos parâmetros. Em uma única GPU H200 com 1,5 TB de RAM do host, o Horizon-LM treina de forma confiável modelos com até 120 bilhões de parâmetros. Em uma máquina padrão com uma única A100, o Horizon-LM alcança um throughput de treinamento até 12,2 vezes maior que o DeepSpeed ZeRO-3 com descarregamento para CPU, preservando a correção numérica. Em diferentes plataformas e escalas, o Horizon-LM mantém alta utilização do dispositivo e crescimento de memória previsível, demonstrando que a memória do host, e não a memória da GPU, define o verdadeiro limite de viabilidade para o treinamento de grandes modelos em escala de nó.

English

The rapid growth of large language models (LLMs) has outpaced the evolution of single-GPU hardware, making model scale increasingly constrained by memory capacity rather than computation. While modern training systems extend GPU memory through distributed parallelism and offloading across CPU and storage tiers, they fundamentally retain a GPU-centric execution paradigm in which GPUs host persistent model replicas and full autograd graphs. As a result, scaling large models remains tightly coupled to multi-GPU clusters, complex distributed runtimes, and unpredictable host memory consumption, creating substantial barriers for node-scale post-training workloads such as instruction tuning, alignment, and domain adaptation. We present Horizon-LM, a memory-centric training system that redefines the roles of CPU and GPU for large-model optimization. Horizon-LM treats host memory as the authoritative parameter store and uses GPUs solely as transient compute engines through a CPU-master, GPU-template execution model. By eliminating persistent GPU-resident modules and autograd graphs, employing explicit recomputation with manual gradient propagation, and introducing a pipelined double-buffered execution engine, Horizon-LM decouples model scale from GPU count and bounds memory usage to the theoretical parameter footprint. On a single H200 GPU with 1.5\,TB host RAM, Horizon-LM reliably trains models up to 120B parameters. On a standard single A100 machine, Horizon-LM achieves up to 12.2times higher training throughput than DeepSpeed ZeRO-3 with CPU offloading while preserving numerical correctness. Across platforms and scales, Horizon-LM sustains high device utilization and predictable memory growth, demonstrating that host memory, not GPU memory, defines the true feasibility boundary for node-scale large-model training.

Horizon-LM: Uma Arquitetura Centrada na RAM para o Treinamento de LLMs

Horizon-LM: A RAM-Centric Architecture for LLM Training

Resumo

Support