LoopRPT: Verstärkendes Vor-Training für geloopte Sprachmodelle

Zusammenfassung

Loop-Sprachmodelle (LoopLMs) führen iterative latente Berechnungen durch, um interne Repräsentationen zu verfeinern, und bieten somit eine vielversprechende Alternative zur expliziten Chain-of-Thought (CoT)-Argumentation. Bestehende Reinforcement-Learning (RL)-Paradigmen zielen jedoch primär auf Ausgabe-Tokens ab, was eine strukturelle Diskrepanz zu loop-basierten Architekturen erzeugt, deren Schlussfolgerungsprozess implizit abläuft. In dieser Arbeit schlagen wir LoopRPT vor, ein Reinforcement-Pre-Training-Framework, das speziell für LoopLMs entwickelt wurde. Indem wir die Next-Token-Vorhersage als Next-Token-Argumentationsaufgabe umformulieren, weist LoopRPT Verstärkungssignale direkt latenten Schritten mittels eines EMA-Lehrerreferenzmodells und verrauschter latenter Rollouts zu. Diese Formulierung ermöglicht es RL, Zwischenrepräsentationen direkt zu formen und effektives Reasoning in weniger Iterationen zu komprimieren. Wir implementieren LoopRPT auf der Ouro-Architektur über mehrere Modellgrößen hinweg. Die Ergebnisse zeigen, dass LoopRPT konsistent die Repräsentationsqualität pro Schritt verbessert und eine Pareto-Dominanz in den Genauigkeits-Berechnungs-Kompromissen erreicht. Bemerkenswerterweise deuten signifikante Verbesserungen bei schwierigen Tokens darauf hin, dass LoopRPT das Reasoning in frühen Phasen verbessert und nicht lediglich vorzeitiges Beenden fördert. Unsere Erkenntnisse unterstreichen Reinforcement Pre-Training als ein prinzipielles Paradigma zum Erlernen effizienten latenten Reasonings in LoopLMs.

English

Looped language models (LoopLMs) perform iterative latent computation to refine internal representations, offering a promising alternative to explicit chain-of-thought (CoT) reasoning. However, existing reinforcement learning (RL) paradigms primarily target output tokens, creating a structural mismatch with looped architectures whose reasoning unfolds implicitly. In this work, we propose LoopRPT, a reinforcement pre-training framework tailored for LoopLMs. By reframing next-token prediction as a next-token reasoning task, LoopRPT assigns reinforcement signals directly to latent steps using an EMA teacher reference and noisy latent rollouts. This formulation enables RL to directly shape intermediate representations, compressing effective reasoning into fewer iterations. We instantiate LoopRPT on the Ouro architecture across multiple model scales. Results demonstrate that LoopRPT consistently improves per-step representation quality, achieving Pareto dominance in accuracy-computation trade-offs. Notably, significant gains on hard tokens indicate that LoopRPT enhances early-stage reasoning rather than merely encouraging premature exits. Our findings highlight reinforcement pre-training as a principled paradigm for learning efficient latent reasoning in LoopLMs.

LoopRPT: Verstärkendes Vor-Training für geloopte Sprachmodelle

LoopRPT: Reinforcement Pre-Training for Looped Language Models

Zusammenfassung

Support