HRM-Text : Pré-entraînement efficace au-delà du scaling

Résumé

Le paradigme actuel de pré-entraînement pour les grands modèles de langage repose sur des calculs massifs et du texte brut à l'échelle d'Internet, créant une barrière importante pour la recherche fondamentale. En revanche, les systèmes biologiques démontrent un apprentissage très efficace en termes d'échantillons grâce à un traitement multi-échelle temporelle, comme l'organisation fonctionnelle de la boucle frontopariétale. En prenant cela comme inspiration, nous introduisons HRM-Text, qui remplace les Transformers standards par un modèle récurrent hiérarchique (HRM) qui découple le calcul en couches stratégiques à évolution lente et couches d'exécution à évolution rapide. Pour stabiliser cette récurrence profonde pour la modélisation du langage, nous introduisons MagicNorm et le warmup de l'assignation de crédit profond. De plus, au lieu du pré-entraînement standard sur texte brut, nous entraînons exclusivement sur des paires instruction-réponse en utilisant un objectif d'achèvement de tâche et un masquage PrefixLM. Servant de preuve empirique d'existence d'un pré-entraînement efficace, un modèle HRM-Text de 1 milliard de paramètres entraîné à partir de zéro sur seulement 40 milliards de tokens uniques et un budget de 1 500 dollars atteint 60,7 % sur MMLU, 81,9 % sur ARC-C, 82,2 % sur DROP, 84,5 % sur GSM8K et 56,2 % sur MATH. Bien qu'il utilise environ 100 à 900 fois moins de tokens d'entraînement et 96 à 432 fois moins de puissance de calcul estimée que les bases de référence standards, HRM-Text obtient des performances compétitives avec des modèles ouverts de 2 à 7 milliards de paramètres. Ces résultats démontrent que la co-conception d'architectures et d'objectifs peut réduire radicalement le rapport calcul/performance, rendant le pré-entraînement à partir de zéro accessible à la communauté de recherche plus large.

English

The current pretraining paradigm for large language models relies on massive compute and internet-scale raw text, creating a significant barrier to foundational research. In contrast, biological systems demonstrate highly sample-efficient learning through multi-timescale processing, such as the functional organization of the frontoparietal loop. Taking this as inspiration, we introduce HRM-Text, which replaces standard Transformers with a Hierarchical Recurrent Model (HRM) that decouples computation into slow-evolving strategic and fast-evolving execution layers. To stabilize this deep recurrence for language modeling, we introduce MagicNorm and warmup deep credit assignment. Furthermore, instead of standard raw-text pretraining, we train exclusively on instruction-response pairs using a task-completion objective and PrefixLM masking. Serving as an empirical existence proof of efficient pretraining, a 1B-parameter HRM-Text model trained from scratch on only 40 billion unique tokens and $1,500 budget achieves 60.7% on MMLU, 81.9% on ARC-C, 82.2% on DROP, 84.5% on GSM8K, and 56.2% on MATH. Despite utilizing roughly 100-900x fewer training tokens and 96-432x less estimated compute than standard baselines, HRM-Text performs competitively with 2-7B parameter open models. These results demonstrate that co-designing architectures and objectives can radically reduce the compute-to-performance ratio, making pretraining from scratch accessible to the broader research community.