Horizon-LM: Un'Architettura Centrata sulla RAM per l'Addestramento di LLM

Abstract

La rapida crescita dei grandi modelli linguistici (LLM) ha superato l'evoluzione dell'hardware a singola GPU, rendendo la scala del modello sempre più vincolata dalla capacità di memoria piuttosto che dal calcolo. Sebbene i moderni sistemi di addestramento estendano la memoria GPU attraverso il parallelismo distribuito e l'offloading su più livelli di CPU e storage, mantengono fondamentalmente un paradigma di esecuzione centrato sulla GPU, in cui le GPU ospitano repliche persistenti del modello e grafi di autograd completi. Di conseguenza, il ridimensionamento di modelli di grandi dimensioni rimane strettamente accoppiato a cluster multi-GPU, runtime distribuiti complessi e consumo di memoria host imprevedibile, creando barriere sostanziali per carichi di lavoro post-addestramento a livello di nodo, come il tuning su istruzioni, l'allineamento e l'adattamento di dominio. Presentiamo Horizon-LM, un sistema di addestramento centrato sulla memoria che ridefinisce i ruoli di CPU e GPU per l'ottimizzazione di modelli di grandi dimensioni. Horizon-LM tratta la memoria host come l'archivio autorevole dei parametri e utilizza le GPU esclusivamente come motori di calcolo transitori attraverso un modello di esecuzione CPU-master, GPU-template. Eliminando moduli residenti persistenti sulla GPU e grafi di autograd, impiegando la ricomputazione esplicita con propagazione manuale del gradiente e introducendo un motore di esecuzione pipeline a doppio buffer, Horizon-LM disaccoppia la scala del modello dal numero di GPU e vincola l'uso della memoria all'impronta teorica dei parametri. Su una singola GPU H200 con 1,5 TB di RAM host, Horizon-LM addestra in modo affidabile modelli fino a 120 miliardi di parametri. Su una macchina standard con una singola A100, Horizon-LM raggiunge una velocità di addestramento fino a 12,2 volte superiore rispetto a DeepSpeed ZeRO-3 con offloading su CPU, preservando la correttezza numerica. Su diverse piattaforme e scale, Horizon-LM mantiene un'elevata utilizzazione del dispositivo e una crescita di memoria prevedibile, dimostrando che è la memoria host, non la memoria GPU, a definire il vero confine di fattibilità per l'addestramento di modelli di grandi dimensioni a livello di nodo.

English

The rapid growth of large language models (LLMs) has outpaced the evolution of single-GPU hardware, making model scale increasingly constrained by memory capacity rather than computation. While modern training systems extend GPU memory through distributed parallelism and offloading across CPU and storage tiers, they fundamentally retain a GPU-centric execution paradigm in which GPUs host persistent model replicas and full autograd graphs. As a result, scaling large models remains tightly coupled to multi-GPU clusters, complex distributed runtimes, and unpredictable host memory consumption, creating substantial barriers for node-scale post-training workloads such as instruction tuning, alignment, and domain adaptation. We present Horizon-LM, a memory-centric training system that redefines the roles of CPU and GPU for large-model optimization. Horizon-LM treats host memory as the authoritative parameter store and uses GPUs solely as transient compute engines through a CPU-master, GPU-template execution model. By eliminating persistent GPU-resident modules and autograd graphs, employing explicit recomputation with manual gradient propagation, and introducing a pipelined double-buffered execution engine, Horizon-LM decouples model scale from GPU count and bounds memory usage to the theoretical parameter footprint. On a single H200 GPU with 1.5\,TB host RAM, Horizon-LM reliably trains models up to 120B parameters. On a standard single A100 machine, Horizon-LM achieves up to 12.2times higher training throughput than DeepSpeed ZeRO-3 with CPU offloading while preserving numerical correctness. Across platforms and scales, Horizon-LM sustains high device utilization and predictable memory growth, demonstrating that host memory, not GPU memory, defines the true feasibility boundary for node-scale large-model training.

Horizon-LM: Un'Architettura Centrata sulla RAM per l'Addestramento di LLM

Horizon-LM: A RAM-Centric Architecture for LLM Training

Abstract

Support