Horizon-LM: Una Arquitectura Centrada en la RAM para el Entrenamiento de Modelos de Lenguaje Grande

Resumen

El rápido crecimiento de los modelos de lenguaje grandes (LLM) ha superado la evolución del hardware de GPU única, haciendo que la escala del modelo esté cada vez más limitada por la capacidad de memoria en lugar del cómputo. Si bien los sistemas de entrenamiento modernos amplían la memoria de la GPU mediante paralelismo distribuido y descarga a través de niveles de CPU y almacenamiento, fundamentalmente conservan un paradigma de ejecución centrado en la GPU, en el que las GPU albergan réplicas persistentes del modelo y grafos de autograd completos. Como resultado, escalar modelos grandes sigue estando estrechamente ligado a clústeres multi-GPU, entornos de ejecución distribuidos complejos y un consumo de memoria del host impredecible, creando barreras sustanciales para cargas de trabajo posteriores al entrenamiento a escala de nodo, como el ajuste por instrucciones, la alineación y la adaptación de dominio. Presentamos Horizon-LM, un sistema de entrenamiento centrado en la memoria que redefine los roles de la CPU y la GPU para la optimización de modelos grandes. Horizon-LM trata la memoria del host como el almacén de parámetros autoritativo y utiliza las GPU únicamente como motores de cómputo transitorios mediante un modelo de ejecución CPU-maestro, GPU-trabajador. Al eliminar los módulos residentes persistentes en la GPU y los grafos de autograd, emplear recomputación explícita con propagación manual de gradientes e introducir un motor de ejecución canalizado con doble búfer, Horizon-LM desacopla la escala del modelo del número de GPU y limita el uso de memoria a la huella teórica de parámetros. En una sola GPU H200 con 1,5 TB de RAM del host, Horizon-LM entrena de forma fiable modelos de hasta 120B de parámetros. En una máquina estándar con una sola A100, Horizon-LM logra un rendimiento de entrenamiento hasta 12,2 veces mayor que DeepSpeed ZeRO-3 con descarga a la CPU, preservando la corrección numérica. En todas las plataformas y escalas, Horizon-LM mantiene una alta utilización del dispositivo y un crecimiento de memoria predecible, demostrando que la memoria del host, no la memoria de la GPU, define el verdadero límite de viabilidad para el entrenamiento de modelos grandes a escala de nodo.

English

The rapid growth of large language models (LLMs) has outpaced the evolution of single-GPU hardware, making model scale increasingly constrained by memory capacity rather than computation. While modern training systems extend GPU memory through distributed parallelism and offloading across CPU and storage tiers, they fundamentally retain a GPU-centric execution paradigm in which GPUs host persistent model replicas and full autograd graphs. As a result, scaling large models remains tightly coupled to multi-GPU clusters, complex distributed runtimes, and unpredictable host memory consumption, creating substantial barriers for node-scale post-training workloads such as instruction tuning, alignment, and domain adaptation. We present Horizon-LM, a memory-centric training system that redefines the roles of CPU and GPU for large-model optimization. Horizon-LM treats host memory as the authoritative parameter store and uses GPUs solely as transient compute engines through a CPU-master, GPU-template execution model. By eliminating persistent GPU-resident modules and autograd graphs, employing explicit recomputation with manual gradient propagation, and introducing a pipelined double-buffered execution engine, Horizon-LM decouples model scale from GPU count and bounds memory usage to the theoretical parameter footprint. On a single H200 GPU with 1.5\,TB host RAM, Horizon-LM reliably trains models up to 120B parameters. On a standard single A100 machine, Horizon-LM achieves up to 12.2times higher training throughput than DeepSpeed ZeRO-3 with CPU offloading while preserving numerical correctness. Across platforms and scales, Horizon-LM sustains high device utilization and predictable memory growth, demonstrating that host memory, not GPU memory, defines the true feasibility boundary for node-scale large-model training.

Horizon-LM: Una Arquitectura Centrada en la RAM para el Entrenamiento de Modelos de Lenguaje Grande

Horizon-LM: A RAM-Centric Architecture for LLM Training

Resumen

Support