LoopRPT: Pre-Addestramento con Rinforzo per Modelli Linguistici ad Anello

Abstract

I modelli linguistici ad anello (LoopLM) eseguono calcoli latenti iterativi per affinare le rappresentazioni interne, offrendo un'alternativa promettente al ragionamento esplicito a catena del pensiero (CoT). Tuttavia, i paradigmi di apprendimento per rinforzo (RL) esistenti prendono di mira principalmente i token di output, creando una mancata corrispondenza strutturale con le architetture ad anello il cui ragionamento si svolge in modo implicito. In questo lavoro, proponiamo LoopRPT, un framework di pre-addestramento per rinforzo specifico per i LoopLM. Riformulando la previsione del token successivo come un compito di ragionamento sul token successivo, LoopRPT assegna i segnali di rinforzo direttamente ai passi latenti utilizzando un riferimento di un teacher EMA e rollout latenti rumorosi. Questa formulazione consente all'RL di modellare direttamente le rappresentazioni intermedie, comprimendo il ragionamento efficace in un numero minore di iterazioni. Istanziamo LoopRPT sull'architettura Ouro su più scale di modelli. I risultati dimostrano che LoopRPT migliora costantemente la qualità della rappresentazione per passo, raggiungendo una dominanza di Pareto nei compromessi precisione-calcolo. In particolare, i significativi guadagni sui token difficili indicano che LoopRPT potenzia il ragionamento nelle fasi iniziali piuttosto che limitarsi a incoraggiare uscite premature. Le nostre scoperte evidenziano il pre-addestramento per rinforzo come un paradigma principiato per apprendere un ragionamento latente efficiente nei LoopLM.

English

Looped language models (LoopLMs) perform iterative latent computation to refine internal representations, offering a promising alternative to explicit chain-of-thought (CoT) reasoning. However, existing reinforcement learning (RL) paradigms primarily target output tokens, creating a structural mismatch with looped architectures whose reasoning unfolds implicitly. In this work, we propose LoopRPT, a reinforcement pre-training framework tailored for LoopLMs. By reframing next-token prediction as a next-token reasoning task, LoopRPT assigns reinforcement signals directly to latent steps using an EMA teacher reference and noisy latent rollouts. This formulation enables RL to directly shape intermediate representations, compressing effective reasoning into fewer iterations. We instantiate LoopRPT on the Ouro architecture across multiple model scales. Results demonstrate that LoopRPT consistently improves per-step representation quality, achieving Pareto dominance in accuracy-computation trade-offs. Notably, significant gains on hard tokens indicate that LoopRPT enhances early-stage reasoning rather than merely encouraging premature exits. Our findings highlight reinforcement pre-training as a principled paradigm for learning efficient latent reasoning in LoopLMs.

LoopRPT: Pre-Addestramento con Rinforzo per Modelli Linguistici ad Anello

LoopRPT: Reinforcement Pre-Training for Looped Language Models

Abstract

Support