LoopRPT: Preentrenamiento por Refuerzo para Modelos de Lenguaje con Bucles

Resumen

Los modelos de lenguaje en bucle (LoopLM) realizan cálculos latentes iterativos para refinar representaciones internas, ofreciendo una alternativa prometedora al razonamiento explícito de cadena de pensamiento (CoT). Sin embargo, los paradigmas existentes de aprendizaje por refuerzo (RL) se centran principalmente en tokens de salida, creando un desajuste estructural con las arquitecturas en bucle cuyo razonamiento se desarrolla implícitamente. En este trabajo proponemos LoopRPT, un marco de pre-entrenamiento por refuerzo diseñado específicamente para LoopLM. Al reformular la predicción del siguiente token como una tarea de razonamiento para el siguiente token, LoopRPT asigna señales de refuerzo directamente a los pasos latentes utilizando una referencia de profesor por media móvil exponencial (EMA) y desarrollos latentes ruidosos. Esta formulación permite que el RL modele directamente las representaciones intermedias, comprimiendo el razonamiento efectivo en menos iteraciones. Implementamos LoopRPT en la arquitectura Ouro a través de múltiples escalas de modelo. Los resultados demuestran que LoopRPT mejora consistentemente la calidad de la representación por paso, logrando un dominio de Pareto en los equilibrios precisión-cálculo. Notablemente, las ganancias significativas en tokens difíciles indican que LoopRPT mejora el razonamiento en etapas tempranas en lugar de simplemente fomentar salidas prematuras. Nuestros hallazgos destacan el pre-entrenamiento por refuerzo como un paradigma fundamentado para aprender razonamiento latente eficiente en LoopLM.

English

Looped language models (LoopLMs) perform iterative latent computation to refine internal representations, offering a promising alternative to explicit chain-of-thought (CoT) reasoning. However, existing reinforcement learning (RL) paradigms primarily target output tokens, creating a structural mismatch with looped architectures whose reasoning unfolds implicitly. In this work, we propose LoopRPT, a reinforcement pre-training framework tailored for LoopLMs. By reframing next-token prediction as a next-token reasoning task, LoopRPT assigns reinforcement signals directly to latent steps using an EMA teacher reference and noisy latent rollouts. This formulation enables RL to directly shape intermediate representations, compressing effective reasoning into fewer iterations. We instantiate LoopRPT on the Ouro architecture across multiple model scales. Results demonstrate that LoopRPT consistently improves per-step representation quality, achieving Pareto dominance in accuracy-computation trade-offs. Notably, significant gains on hard tokens indicate that LoopRPT enhances early-stage reasoning rather than merely encouraging premature exits. Our findings highlight reinforcement pre-training as a principled paradigm for learning efficient latent reasoning in LoopLMs.

LoopRPT: Preentrenamiento por Refuerzo para Modelos de Lenguaje con Bucles

LoopRPT: Reinforcement Pre-Training for Looped Language Models

Resumen

Support