Horizon-LM: Een RAM-gecentreerde architectuur voor de training van grote taalmodel

Samenvatting

De snelle groei van grote taalmmodellen (LLM's) heeft de evolutie van hardware met enkele GPU's overtroffen, waardoor de modelschaal steeds meer beperkt wordt door geheugencapaciteit in plaats van rekenkracht. Hoewel moderne trainingsystemen het GPU-geheugen uitbreiden via gedistribueerde parallellisatie en offloading over CPU- en opslaglagen, behouden ze fundamenteel een GPU-centraal uitvoeringsparadigma waarin GPU's persistente modelreplica's en volledige autograd-grafieken hosten. Hierdoor blijft het schalen van grote modellen nauw gekoppeld aan multi-GPU-clusters, complexe gedistribueerde runtime-omgevingen en onvoorspelbaar hostgeheugengebruik, wat aanzienlijke barrières opwerpt voor node-schaal workloads na de training, zoals instructie-afstemming, alignment en domeinaanpassing. Wij presenteren Horizon-LM, een geheugengericht trainingssysteem dat de rollen van CPU en GPU voor optimalisatie van grote modellen herdefinieert. Horizon-LM behandelt hostgeheugen als de autoritaire parameteropslag en gebruikt GPU's uitsluitend als tijdelijke rekenengines via een CPU-master, GPU-template uitvoeringsmodel. Door persistente GPU-gereflecteerde modules en autograd-grafieken te elimineren, expliciete herberekening met handmatige gradientpropagatie toe te passen en een gepipelineerde dubbelgebufferde uitvoeringsengine te introduceren, ontkoppelt Horizon-LM modelschaal van het aantal GPU's en begrenst het geheugengebruik tot de theoretische parameterfootprint. Op een enkele H200 GPU met 1,5 TB host-RAM traint Horizon-LM betrouwbaar modellen tot 120B parameters. Op een standaard single A100-machine behaalt Horizon-LM tot 12,2 keer hogere trainingsdoorvoer dan DeepSpeed ZeRO-3 met CPU-offloading, terwijl numerieke correctheid behouden blijft. Over platformen en schalen heen handhaaft Horizon-LM een hoog apparaatgebruik en voorspelbare geheugengroei, wat aantoont dat hostgeheugen, niet GPU-geheugen, de ware haalbaarheidsgrens definieert voor node-schaal training van grote modellen.

English

The rapid growth of large language models (LLMs) has outpaced the evolution of single-GPU hardware, making model scale increasingly constrained by memory capacity rather than computation. While modern training systems extend GPU memory through distributed parallelism and offloading across CPU and storage tiers, they fundamentally retain a GPU-centric execution paradigm in which GPUs host persistent model replicas and full autograd graphs. As a result, scaling large models remains tightly coupled to multi-GPU clusters, complex distributed runtimes, and unpredictable host memory consumption, creating substantial barriers for node-scale post-training workloads such as instruction tuning, alignment, and domain adaptation. We present Horizon-LM, a memory-centric training system that redefines the roles of CPU and GPU for large-model optimization. Horizon-LM treats host memory as the authoritative parameter store and uses GPUs solely as transient compute engines through a CPU-master, GPU-template execution model. By eliminating persistent GPU-resident modules and autograd graphs, employing explicit recomputation with manual gradient propagation, and introducing a pipelined double-buffered execution engine, Horizon-LM decouples model scale from GPU count and bounds memory usage to the theoretical parameter footprint. On a single H200 GPU with 1.5\,TB host RAM, Horizon-LM reliably trains models up to 120B parameters. On a standard single A100 machine, Horizon-LM achieves up to 12.2times higher training throughput than DeepSpeed ZeRO-3 with CPU offloading while preserving numerical correctness. Across platforms and scales, Horizon-LM sustains high device utilization and predictable memory growth, demonstrating that host memory, not GPU memory, defines the true feasibility boundary for node-scale large-model training.

Horizon-LM: Een RAM-gecentreerde architectuur voor de training van grote taalmodel

Horizon-LM: A RAM-Centric Architecture for LLM Training

Samenvatting

Support