LoopRPT: Pré-Treinamento por Reforço para Modelos de Linguagem em Loop

Resumo

Os modelos de linguagem em loop (LoopLMs) realizam computação latente iterativa para refinar representações internas, oferecendo uma alternativa promissora ao raciocínio explícito de cadeia de pensamento (CoT). No entanto, os paradigmas de aprendizagem por reforço (RL) existentes visam principalmente tokens de saída, criando uma incompatibilidade estrutural com arquiteturas em loop, cujo raciocínio se desenrola implicitamente. Neste trabalho, propomos o LoopRPT, uma estrutura de pré-treinamento por reforço adaptada para LoopLMs. Ao reformular a previsão do próximo token como uma tarefa de raciocínio do próximo token, o LoopRPT atribui sinais de reforço diretamente a etapas latentes usando uma referência de professor por média móvel exponencial (EMA) e rollouts latentes ruidosos. Esta formulação permite que o RL molde diretamente as representações intermediárias, comprimindo o raciocínio eficaz em menos iterações. Instanciamos o LoopRPT na arquitetura Ouro em várias escalas de modelo. Os resultados demonstram que o LoopRPT melhora consistentemente a qualidade da representação por etapa, alcanando dominância de Pareto nos compromissos entre precisão e computação. Notavelmente, ganhos significativos em tokens difíceis indicam que o LoopRPT aprimora o raciocínio em estágio inicial, em vez de meramente incentivar saídas prematuras. Nossas descobertas destacam o pré-treinamento por reforço como um paradigma fundamentado para aprender raciocínio latente eficiente em LoopLMs.

English

Looped language models (LoopLMs) perform iterative latent computation to refine internal representations, offering a promising alternative to explicit chain-of-thought (CoT) reasoning. However, existing reinforcement learning (RL) paradigms primarily target output tokens, creating a structural mismatch with looped architectures whose reasoning unfolds implicitly. In this work, we propose LoopRPT, a reinforcement pre-training framework tailored for LoopLMs. By reframing next-token prediction as a next-token reasoning task, LoopRPT assigns reinforcement signals directly to latent steps using an EMA teacher reference and noisy latent rollouts. This formulation enables RL to directly shape intermediate representations, compressing effective reasoning into fewer iterations. We instantiate LoopRPT on the Ouro architecture across multiple model scales. Results demonstrate that LoopRPT consistently improves per-step representation quality, achieving Pareto dominance in accuracy-computation trade-offs. Notably, significant gains on hard tokens indicate that LoopRPT enhances early-stage reasoning rather than merely encouraging premature exits. Our findings highlight reinforcement pre-training as a principled paradigm for learning efficient latent reasoning in LoopLMs.

LoopRPT: Pré-Treinamento por Reforço para Modelos de Linguagem em Loop

LoopRPT: Reinforcement Pre-Training for Looped Language Models

Resumo

Support