ChatPaper.aiChatPaper

Horizon-LM: Eine RAM-zentrierte Architektur für das Training großer Sprachmodelle

Horizon-LM: A RAM-Centric Architecture for LLM Training

February 4, 2026
papers.authors: Zhengqing Yuan, Lichao Sun, Yanfang, Ye
cs.AI

papers.abstract

Das rasante Wachstum großer Sprachmodelle (LLMs) hat die Entwicklung von Single-GPU-Hardware übertroffen, wodurch der Modellumfang zunehmend durch die Speicherkapazität und nicht durch die Rechenleistung begrenzt wird. Während moderne Trainingssysteme den GPU-Speicher durch verteilten Parallelismus und Auslagerung über CPU- und Speicherebenen hinweg erweitern, behalten sie grundsätzlich ein GPU-zentriertes Ausführungsparadigma bei, bei dem GPUs persistente Modellreplikate und vollständige Autograd-Graphen hosten. Infolgedessen bleibt die Skalierung großer Modelle eng an Multi-GPU-Cluster, komplexe verteilte Laufzeitsysteme und unvorhersehbaren Host-Speicherverbrauch gekoppelt, was erhebliche Hindernisse für nachgelagerte Workloads auf Knotenebene wie Instruction Tuning, Alignment und Domänenanpassung schafft. Wir stellen Horizon-LM vor, ein speicherzentriertes Trainingssystem, das die Rollen von CPU und GPU für die Optimierung großer Modelle neu definiert. Horizon-LM behandelt den Host-Speicher als autoritativen Parameterspeicher und nutzt GPUs ausschließlich als transiente Recheneinheiten durch ein CPU-Master-, GPU-Worker-Ausführungsmodell. Durch die Eliminierung persistenter GPU-residenter Module und Autograd-Graphen, den Einsatz expliziter Neuberechnung mit manueller Gradientenpropagation und die Einführung einer gepipelineten Doppelpuffer-Ausführungsengine entkoppelt Horizon-LM den Modellumfang von der GPU-Anzahl und begrenzt die Speichernutzung auf den theoretischen Parameter-Footprint. Auf einer einzelnen H200-GPU mit 1,5 TB Host-RAM trainiert Horizon-LM zuverlässig Modelle mit bis zu 120 Milliarden Parametern. Auf einer Standard-A100-Maschine erreicht Horizon-LM eine bis zu 12,2-mal höhere Trainingsdurchsatzrate als DeepSpeed ZeRO-3 mit CPU-Auslagerung bei gleichzeitiger Wahrung der numerischen Korrektheit. Über Plattformen und Skalen hinweg erzielt Horizon-LM eine hohe Geräteauslastung und ein vorhersehbares Speicherwachstum und demonstriert, dass Host-Speicher – nicht GPU-Speicher – die tatsächliche Machbarkeitsgrenze für das Training großer Modelle auf Knotenebene definiert.
English
The rapid growth of large language models (LLMs) has outpaced the evolution of single-GPU hardware, making model scale increasingly constrained by memory capacity rather than computation. While modern training systems extend GPU memory through distributed parallelism and offloading across CPU and storage tiers, they fundamentally retain a GPU-centric execution paradigm in which GPUs host persistent model replicas and full autograd graphs. As a result, scaling large models remains tightly coupled to multi-GPU clusters, complex distributed runtimes, and unpredictable host memory consumption, creating substantial barriers for node-scale post-training workloads such as instruction tuning, alignment, and domain adaptation. We present Horizon-LM, a memory-centric training system that redefines the roles of CPU and GPU for large-model optimization. Horizon-LM treats host memory as the authoritative parameter store and uses GPUs solely as transient compute engines through a CPU-master, GPU-template execution model. By eliminating persistent GPU-resident modules and autograd graphs, employing explicit recomputation with manual gradient propagation, and introducing a pipelined double-buffered execution engine, Horizon-LM decouples model scale from GPU count and bounds memory usage to the theoretical parameter footprint. On a single H200 GPU with 1.5\,TB host RAM, Horizon-LM reliably trains models up to 120B parameters. On a standard single A100 machine, Horizon-LM achieves up to 12.2times higher training throughput than DeepSpeed ZeRO-3 with CPU offloading while preserving numerical correctness. Across platforms and scales, Horizon-LM sustains high device utilization and predictable memory growth, demonstrating that host memory, not GPU memory, defines the true feasibility boundary for node-scale large-model training.
PDF141February 6, 2026