HRM-Text: 스케일링을 넘어서는 효율적인 사전 학습
HRM-Text: Efficient Pretraining Beyond Scaling
May 20, 2026
저자: Guan Wang, Changling Liu, Chenyu Wang, Cai Zhou, Yuhao Sun, Yifei Wu, Shuai Zhen, Luca Scimeca, Yasin Abbasi Yadkori
cs.AI
초록
현재 대규모 언어 모델의 사전 학습 패러다임은 막대한 연산 자원과 인터넷 규모의 원시 텍스트에 의존하여 기초 연구에 상당한 장벽을 형성하고 있다. 이와 대조적으로 생물학적 시스템은 전두정엽 루프의 기능적 조직과 같은 다중 시간 척도 처리를 통해 샘플 효율성이 높은 학습을 보여준다. 이러한 점에서 영감을 받아, 우리는 표준 트랜스포머를 계층적 순환 모델(HRM)로 대체하여 계산을 느리게 진화하는 전략 계층과 빠르게 진화하는 실행 계층으로 분리하는 HRM-Text를 소개한다. 언어 모델링을 위한 이러한 깊은 순환 구조를 안정화하기 위해, 우리는 MagicNorm과 웜업 심층 신용 할당을 도입한다. 또한, 표준 원시 텍스트 사전 학습 대신, 작업 완료 목표와 PrefixLM 마스킹을 사용하여 지시-응답 쌍에 대해서만 학습을 진행한다. 효율적인 사전 학습의 경험적 존재 증명으로서, 400억 개의 고유 토큰과 1,500달러 예산으로 처음부터 학습된 10억 파라미터 HRM-Text 모델은 MMLU에서 60.7%, ARC-C에서 81.9%, DROP에서 82.2%, GSM8K에서 84.5%, MATH에서 56.2%의 성능을 달성한다. 표준 기준선보다 약 100~900배 적은 학습 토큰과 96~432배 적은 추정 연산을 사용했음에도 불구하고, HRM-Text는 20~70억 파라미터의 공개 모델과 경쟁력 있는 성능을 보여준다. 이러한 결과는 아키텍처와 목표를 공동 설계함으로써 연산 대비 성능 비율을 획기적으로 낮출 수 있으며, 광범위한 연구 커뮤니티가 처음부터 사전 학습을 수행할 수 있게 함을 입증한다.
English
The current pretraining paradigm for large language models relies on massive compute and internet-scale raw text, creating a significant barrier to foundational research. In contrast, biological systems demonstrate highly sample-efficient learning through multi-timescale processing, such as the functional organization of the frontoparietal loop. Taking this as inspiration, we introduce HRM-Text, which replaces standard Transformers with a Hierarchical Recurrent Model (HRM) that decouples computation into slow-evolving strategic and fast-evolving execution layers. To stabilize this deep recurrence for language modeling, we introduce MagicNorm and warmup deep credit assignment. Furthermore, instead of standard raw-text pretraining, we train exclusively on instruction-response pairs using a task-completion objective and PrefixLM masking. Serving as an empirical existence proof of efficient pretraining, a 1B-parameter HRM-Text model trained from scratch on only 40 billion unique tokens and $1,500 budget achieves 60.7% on MMLU, 81.9% on ARC-C, 82.2% on DROP, 84.5% on GSM8K, and 56.2% on MATH. Despite utilizing roughly 100-900x fewer training tokens and 96-432x less estimated compute than standard baselines, HRM-Text performs competitively with 2-7B parameter open models. These results demonstrate that co-designing architectures and objectives can radically reduce the compute-to-performance ratio, making pretraining from scratch accessible to the broader research community.