Horizon-LM: RAM-ориентированная архитектура для обучения больших языковых моделей
Horizon-LM: A RAM-Centric Architecture for LLM Training
February 4, 2026
Авторы: Zhengqing Yuan, Lichao Sun, Yanfang, Ye
cs.AI
Аннотация
Быстрый рост больших языковых моделей (LLM) опередил эволюцию однопроцессорного графического оборудования, в результате чего масштабируемость моделей все больше ограничивается объемом памяти, а не вычислительной мощностью. Хотя современные системы обучения расширяют память GPU за счет распределенного параллелизма и оффлоудинга на уровни CPU и хранилищ, они в основе сохраняют GPU-центричную парадигму выполнения, в которой GPU размещают постоянные реплики модели и полные графы автоградиента. Как следствие, масштабирование больших моделей остается жестко связанным с многопроцессорными кластерами, сложными распределенными средами выполнения и непредсказуемым потреблением памяти хоста, создавая существенные барьеры для посттренировочных задач на уровне узла, таких как тонкая настройка инструкций, выравнивание и адаптация к домену. Мы представляем Horizon-LM — память-центричную систему обучения, которая переопределяет роли CPU и GPU для оптимизации больших моделей. Horizon-LM рассматривает память хоста как авторитетное хранилище параметров и использует GPU исключительно в качестве транзитных вычислительных движков через модель выполнения CPU-master, GPU-template. Благодаря устранению резидентных в GPU модулей и графов автоградиента, использованию явного пересчета с ручным распространением градиентов и внедрению конвейерного двухбуферного механизма выполнения, Horizon-LM отделяет масштаб модели от количества GPU и ограничивает использование памяти теоретическим объемом параметров. На одном GPU H200 с 1,5 ТБ оперативной памяти хоста Horizon-LM стабильно обучает модели до 120 млрд параметров. На стандартной машине с одним A100 Horizon-LM достигает до 12,2-кратного увеличения пропускной способности обучения по сравнению с DeepSpeed ZeRO-3 с оффлоудингом на CPU при сохранении численной корректности. На разных платформах и масштабах Horizon-LM поддерживает высокую утилизацию устройств и предсказуемый рост памяти, демонстрируя, что именно память хоста, а не память GPU, определяет истинную границу осуществимости обучения больших моделей на уровне узла.
English
The rapid growth of large language models (LLMs) has outpaced the evolution of single-GPU hardware, making model scale increasingly constrained by memory capacity rather than computation. While modern training systems extend GPU memory through distributed parallelism and offloading across CPU and storage tiers, they fundamentally retain a GPU-centric execution paradigm in which GPUs host persistent model replicas and full autograd graphs. As a result, scaling large models remains tightly coupled to multi-GPU clusters, complex distributed runtimes, and unpredictable host memory consumption, creating substantial barriers for node-scale post-training workloads such as instruction tuning, alignment, and domain adaptation. We present Horizon-LM, a memory-centric training system that redefines the roles of CPU and GPU for large-model optimization. Horizon-LM treats host memory as the authoritative parameter store and uses GPUs solely as transient compute engines through a CPU-master, GPU-template execution model. By eliminating persistent GPU-resident modules and autograd graphs, employing explicit recomputation with manual gradient propagation, and introducing a pipelined double-buffered execution engine, Horizon-LM decouples model scale from GPU count and bounds memory usage to the theoretical parameter footprint. On a single H200 GPU with 1.5\,TB host RAM, Horizon-LM reliably trains models up to 120B parameters. On a standard single A100 machine, Horizon-LM achieves up to 12.2times higher training throughput than DeepSpeed ZeRO-3 with CPU offloading while preserving numerical correctness. Across platforms and scales, Horizon-LM sustains high device utilization and predictable memory growth, demonstrating that host memory, not GPU memory, defines the true feasibility boundary for node-scale large-model training.