HRM-Text: Эффективное предобучение за пределами масштабирования

Аннотация

Современная парадигма предварительного обучения больших языковых моделей опирается на огромные вычислительные ресурсы и сырые тексты интернет-масштаба, что создает значительный барьер для фундаментальных исследований. В отличие от этого, биологические системы демонстрируют высокую эффективность обучения на основе примеров благодаря многоуровневой обработке во временных масштабах, например, функциональной организации фронтопариетальной петли. Вдохновляясь этим, мы представляем HRM-Text, которая заменяет стандартные трансформеры иерархической рекуррентной моделью (HRM), разделяющей вычисления на медленно изменяющиеся стратегические и быстро изменяющиеся исполнительные слои. Для стабилизации этой глубокой рекуррентности в моделировании языка мы вводим MagicNorm и разогрев глубокого распределения кредита. Кроме того, вместо стандартного предварительного обучения на сырых текстах мы обучаем исключительно на парах инструкция-ответ с использованием цели завершения задачи и маскировки PrefixLM. В качестве эмпирического доказательства существования эффективного предварительного обучения модель HRM-Text с 1 миллиардом параметров, обученная с нуля всего на 40 миллиардах уникальных токенов и бюджете в 1500 долларов, достигает 60,7% на MMLU, 81,9% на ARC-C, 82,2% на DROP, 84,5% на GSM8K и 56,2% на MATH. Несмотря на использование примерно в 100–900 раз меньше обучающих токенов и в 96–432 раза меньше оценочных вычислительных ресурсов по сравнению со стандартными базовыми моделями, HRM-Text показывает конкурентоспособные результаты с открытыми моделями на 2–7 миллиардов параметров. Эти результаты демонстрируют, что совместное проектирование архитектур и целей может радикально снизить соотношение вычислительных затрат и производительности, делая предварительное обучение с нуля доступным для более широкого исследовательского сообщества.

English

The current pretraining paradigm for large language models relies on massive compute and internet-scale raw text, creating a significant barrier to foundational research. In contrast, biological systems demonstrate highly sample-efficient learning through multi-timescale processing, such as the functional organization of the frontoparietal loop. Taking this as inspiration, we introduce HRM-Text, which replaces standard Transformers with a Hierarchical Recurrent Model (HRM) that decouples computation into slow-evolving strategic and fast-evolving execution layers. To stabilize this deep recurrence for language modeling, we introduce MagicNorm and warmup deep credit assignment. Furthermore, instead of standard raw-text pretraining, we train exclusively on instruction-response pairs using a task-completion objective and PrefixLM masking. Serving as an empirical existence proof of efficient pretraining, a 1B-parameter HRM-Text model trained from scratch on only 40 billion unique tokens and $1,500 budget achieves 60.7% on MMLU, 81.9% on ARC-C, 82.2% on DROP, 84.5% on GSM8K, and 56.2% on MATH. Despite utilizing roughly 100-900x fewer training tokens and 96-432x less estimated compute than standard baselines, HRM-Text performs competitively with 2-7B parameter open models. These results demonstrate that co-designing architectures and objectives can radically reduce the compute-to-performance ratio, making pretraining from scratch accessible to the broader research community.