Horizon-LM : Une architecture centrée sur la RAM pour l'entraînement de modèles de langage de grande taille

papers.abstract

La croissance rapide des grands modèles de langage (LLM) a dépassé l'évolution du matériel à GPU unique, rendant l'échelle des modèles de plus en plus contrainte par la capacité mémoire plutôt que par le calcul. Bien que les systèmes d'entraînement modernes étendent la mémoire GPU via le parallélisme distribué et la déportation de charge à travers les niveaux CPU et stockage, ils conservent fondamentalement un paradigme d'exécution centré sur le GPU dans lequel les GPU hébergent des répliques persistantes du modèle et des graphes d'autograd complets. En conséquence, la mise à l'échelle de grands modèles reste étroitement couplée à des grappes multi-GPU, des environnements d'exécution distribués complexes et une consommation mémoire hôte imprévisible, créant des barrières substantielles pour les charges de travail post-entraînement à l'échelle du nœud, telles que le réglage par instruction, l'alignement et l'adaptation de domaine. Nous présentons Horizon-LM, un système d'entraînement à mémoire centrée qui redéfinit les rôles du CPU et du GPU pour l'optimisation des grands modèles. Horizon-LM traite la mémoire hôte comme le stockage de paramètres autoritaire et utilise les GPU uniquement comme moteurs de calcul transitoires via un modèle d'exécution CPU-maître, GPU-esclave. En éliminant les modules résidents persistants sur le GPU et les graphes d'autograd, en employant une recomputation explicite avec propagation manuelle des gradients, et en introduisant un moteur d'exécution pipeliné à double tampon, Horizon-LM découple l'échelle du modèle du nombre de GPU et limite l'utilisation mémoire à l'empreinte théorique des paramètres. Sur un seul GPU H200 avec 1,5 To de RAM hôte, Horizon-LM entraîne de manière fiable des modèles jusqu'à 120 milliards de paramètres. Sur une machine standard à un seul A100, Horizon-LM atteint jusqu'à 12,2 fois le débit d'entraînement de DeepSpeed ZeRO-3 avec déportation CPU, tout en préservant l'exactitude numérique. Sur toutes les plateformes et échelles, Horizon-LM maintient une utilisation élevée des dispositifs et une croissance mémoire prévisible, démontrant que la mémoire hôte, et non la mémoire GPU, définit la véritable frontière de faisabilité pour l'entraînement de grands modèles à l'échelle du nœud.

English

The rapid growth of large language models (LLMs) has outpaced the evolution of single-GPU hardware, making model scale increasingly constrained by memory capacity rather than computation. While modern training systems extend GPU memory through distributed parallelism and offloading across CPU and storage tiers, they fundamentally retain a GPU-centric execution paradigm in which GPUs host persistent model replicas and full autograd graphs. As a result, scaling large models remains tightly coupled to multi-GPU clusters, complex distributed runtimes, and unpredictable host memory consumption, creating substantial barriers for node-scale post-training workloads such as instruction tuning, alignment, and domain adaptation. We present Horizon-LM, a memory-centric training system that redefines the roles of CPU and GPU for large-model optimization. Horizon-LM treats host memory as the authoritative parameter store and uses GPUs solely as transient compute engines through a CPU-master, GPU-template execution model. By eliminating persistent GPU-resident modules and autograd graphs, employing explicit recomputation with manual gradient propagation, and introducing a pipelined double-buffered execution engine, Horizon-LM decouples model scale from GPU count and bounds memory usage to the theoretical parameter footprint. On a single H200 GPU with 1.5\,TB host RAM, Horizon-LM reliably trains models up to 120B parameters. On a standard single A100 machine, Horizon-LM achieves up to 12.2times higher training throughput than DeepSpeed ZeRO-3 with CPU offloading while preserving numerical correctness. Across platforms and scales, Horizon-LM sustains high device utilization and predictable memory growth, demonstrating that host memory, not GPU memory, defines the true feasibility boundary for node-scale large-model training.

Horizon-LM : Une architecture centrée sur la RAM pour l'entraînement de modèles de langage de grande taille

Horizon-LM: A RAM-Centric Architecture for LLM Training

papers.abstract

Support