LoopRPT: Reinforcement Pre-training voor Geluspte Taalmodellen

Samenvatting

Geloopte taalmodelarchitecturen (LoopLMs) voeren iteratieve latente berekeningen uit om interne representaties te verfijnen, wat een veelbelovend alternatief biedt voor expliciete redeneerketens (chain-of-thought, CoT). Bestaande paradigma's voor reinforcement learning (RL) richten zich echter voornamelijk op uitvoertokens, wat een structurele mismatch creëert met geloopte architecturen waarvan de redenering impliciet verloopt. In dit werk stellen we LoopRPT voor, een raamwerk voor reinforcement pre-training dat is toegesneden op LoopLMs. Door next-token-voorspelling te herformuleren als een next-token-redeneertaak, wijst LoopRPT reinforcement-signalen direct toe aan latente stappen met behulp van een EMA-leraarsreferentie en ruwe latente rollouts. Deze formulering stelt RL in staat om intermediaire representaties direct vorm te geven, waardoor effectief redeneren in minder iteraties wordt gecomprimeerd. We implementeren LoopRPT op de Ouro-architectuur op verschillende modelschalen. Resultaten tonen aan dat LoopRPT consistent de kwaliteit van de representatie per stap verbetert en Pareto-dominantie bereikt in de nauwkeurigheid-berekeningsafweging. Opmerkelijke significante verbeteringen op moeilijke tokens geven aan dat LoopRPT de redenering in vroege fasen verbetert in plaats van slechts vroegtijdige exits aan te moedigen. Onze bevindingen benadrukken reinforcement pre-training als een principieel paradigma voor het leren van efficiënte latente redenering in LoopLMs.

English

Looped language models (LoopLMs) perform iterative latent computation to refine internal representations, offering a promising alternative to explicit chain-of-thought (CoT) reasoning. However, existing reinforcement learning (RL) paradigms primarily target output tokens, creating a structural mismatch with looped architectures whose reasoning unfolds implicitly. In this work, we propose LoopRPT, a reinforcement pre-training framework tailored for LoopLMs. By reframing next-token prediction as a next-token reasoning task, LoopRPT assigns reinforcement signals directly to latent steps using an EMA teacher reference and noisy latent rollouts. This formulation enables RL to directly shape intermediate representations, compressing effective reasoning into fewer iterations. We instantiate LoopRPT on the Ouro architecture across multiple model scales. Results demonstrate that LoopRPT consistently improves per-step representation quality, achieving Pareto dominance in accuracy-computation trade-offs. Notably, significant gains on hard tokens indicate that LoopRPT enhances early-stage reasoning rather than merely encouraging premature exits. Our findings highlight reinforcement pre-training as a principled paradigm for learning efficient latent reasoning in LoopLMs.

LoopRPT: Reinforcement Pre-training voor Geluspte Taalmodellen

LoopRPT: Reinforcement Pre-Training for Looped Language Models

Samenvatting

Support