HRM-Text: Pré-treinamento Eficiente Além do Escalonamento

Resumo

O paradigma atual de pré-treinamento para modelos de linguagem de grande porte depende de imenso poder computacional e de texto bruto em escala da internet, criando uma barreira significativa para a pesquisa fundamental. Em contraste, sistemas biológicos demonstram aprendizagem altamente eficiente em termos de amostras por meio do processamento em múltiplas escalas temporais, como a organização funcional da alça frontoparietal. Inspirados por isso, apresentamos o HRM-Text, que substitui Transformers padrão por um Modelo Recorrente Hierárquico (HRM) que desacopla o processamento em camadas estratégicas de evolução lenta e camadas de execução de evolução rápida. Para estabilizar essa recorrência profunda na modelagem de linguagem, introduzimos o MagicNorm e a atribuição profunda de crédito com aquecimento. Além disso, em vez do pré-treinamento padrão com texto bruto, treinamos exclusivamente em pares instrução-resposta usando um objetivo de conclusão de tarefa e o mascaramento PrefixLM. Servindo como uma prova empírica de existência de pré-treinamento eficiente, um modelo HRM-Text com 1 bilhão de parâmetros, treinado do zero em apenas 40 bilhões de tokens únicos e com um orçamento de US$ 1.500, alcança 60,7% no MMLU, 81,9% no ARC-C, 82,2% no DROP, 84,5% no GSM8K e 56,2% no MATH. Apesar de utilizar aproximadamente 100 a 900 vezes menos tokens de treinamento e 96 a 432 vezes menos poder computacional estimado do que as referências padrão, o HRM-Text apresenta desempenho competitivo com modelos abertos de 2 a 7 bilhões de parâmetros. Esses resultados demonstram que o co-design de arquiteturas e objetivos pode reduzir radicalmente a relação entre poder computacional e desempenho, tornando o pré-treinamento do zero acessível à comunidade de pesquisa em geral.

English

The current pretraining paradigm for large language models relies on massive compute and internet-scale raw text, creating a significant barrier to foundational research. In contrast, biological systems demonstrate highly sample-efficient learning through multi-timescale processing, such as the functional organization of the frontoparietal loop. Taking this as inspiration, we introduce HRM-Text, which replaces standard Transformers with a Hierarchical Recurrent Model (HRM) that decouples computation into slow-evolving strategic and fast-evolving execution layers. To stabilize this deep recurrence for language modeling, we introduce MagicNorm and warmup deep credit assignment. Furthermore, instead of standard raw-text pretraining, we train exclusively on instruction-response pairs using a task-completion objective and PrefixLM masking. Serving as an empirical existence proof of efficient pretraining, a 1B-parameter HRM-Text model trained from scratch on only 40 billion unique tokens and $1,500 budget achieves 60.7% on MMLU, 81.9% on ARC-C, 82.2% on DROP, 84.5% on GSM8K, and 56.2% on MATH. Despite utilizing roughly 100-900x fewer training tokens and 96-432x less estimated compute than standard baselines, HRM-Text performs competitively with 2-7B parameter open models. These results demonstrate that co-designing architectures and objectives can radically reduce the compute-to-performance ratio, making pretraining from scratch accessible to the broader research community.