ChatPaper.aiChatPaper

LoopRPT: 순환 언어 모델을 위한 강화 사전 학습

LoopRPT: Reinforcement Pre-Training for Looped Language Models

March 20, 2026
저자: Guo Tang, Shixin Jiang, Heng Chang, Nuo Chen, Yuhan Li, Huiming Fan, Jia Li, Ming Liu, Bing Qin
cs.AI

초록

루프 언어 모델(LoopLM)은 내부 표현을 정제하기 위해 반복적 잠재 계산을 수행함으로써 명시적 사고 연쇄(CoT) 추론에 대한 유망한 대안을 제공합니다. 그러나 기존 강화학습(RL) 패러다임은 주로 출력 토큰을 대상으로 하여, 추론이 암묵적으로 전개되는 루프 아키텍처와 구조적 불일치를 초래합니다. 본 연구에서는 LoopLM에 특화된 강화 사전 학습 프레임워크인 LoopRPT를 제안합니다. 다음 토큰 예측을 다음 토큰 추론 과제로 재구성함으로써, LoopRPT는 EMA 교사 참조 모델과 노이즈가 추가된 잠재 롤아웃을 사용하여 강화 신호를 잠재 단계에 직접 할당합니다. 이 공식화를 통해 RL이 중간 표현을 직접 형성하여 효과적인 추론을 더 적은 반복으로 압축할 수 있습니다. 우리는 다양한 모델 규모의 Ouro 아키텍처에서 LoopRPT를 구현합니다. 결과는 LoopRPT가 단계별 표현 품질을 꾸준히 향상시키며 정확도-계산량 트레이드오프에서 파레토 우위를 달성함을 보여줍니다. 특히, 어려운 토큰에서의 상당한 성능 향상은 LoopRPT가 조기 종료를 촉진하는 것이 아니라 초기 단계 추론을 향상시킨다는 것을 나타냅니다. 우리의 연구 결과는 LoopLM에서 효율적인 잠재 추론을 학습하기 위한 원칙적인 패러다임으로서 강화 사전 학습의 중요성을 부각합니다.
English
Looped language models (LoopLMs) perform iterative latent computation to refine internal representations, offering a promising alternative to explicit chain-of-thought (CoT) reasoning. However, existing reinforcement learning (RL) paradigms primarily target output tokens, creating a structural mismatch with looped architectures whose reasoning unfolds implicitly. In this work, we propose LoopRPT, a reinforcement pre-training framework tailored for LoopLMs. By reframing next-token prediction as a next-token reasoning task, LoopRPT assigns reinforcement signals directly to latent steps using an EMA teacher reference and noisy latent rollouts. This formulation enables RL to directly shape intermediate representations, compressing effective reasoning into fewer iterations. We instantiate LoopRPT on the Ouro architecture across multiple model scales. Results demonstrate that LoopRPT consistently improves per-step representation quality, achieving Pareto dominance in accuracy-computation trade-offs. Notably, significant gains on hard tokens indicate that LoopRPT enhances early-stage reasoning rather than merely encouraging premature exits. Our findings highlight reinforcement pre-training as a principled paradigm for learning efficient latent reasoning in LoopLMs.
PDF71March 24, 2026