RLP: Reforço como Objetivo de Pré-treinamento
RLP: Reinforcement as a Pretraining Objective
September 26, 2025
Autores: Ali Hatamizadeh, Syeda Nahida Akter, Shrimai Prabhumoye, Jan Kautz, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro, Yejin Choi
cs.AI
Resumo
O paradigma dominante para treinar grandes modelos de raciocínio começa com
pré-treinamento usando a perda de previsão do próximo token em grandes quantidades de dados.
O aprendizado por reforço, embora poderoso para escalar o raciocínio, é introduzido apenas
como a fase final de pós-treinamento, precedido por ajuste fino supervisionado.
Embora dominante, essa é a maneira ideal de treinamento? Neste artigo, apresentamos
o RLP, um objetivo de pré-treinamento por reforço baseado em informação, que traz o
espírito central do aprendizado por reforço -- a exploração -- para a última fase do
pré-treinamento. A ideia principal é tratar a cadeia de pensamento como uma ação
exploratória, com recompensas calculadas com base no ganho de informação que ela
proporciona para prever tokens futuros. Esse objetivo de treinamento essencialmente
incentiva o modelo a pensar por si mesmo antes de prever o que vem a seguir, ensinando
assim um comportamento de pensamento independente mais cedo no pré-treinamento. Mais
concretamente, o sinal de recompensa mede o aumento na log-verossimilhança do próximo
token ao condicionar tanto no contexto quanto em uma cadeia de raciocínio amostrada,
em comparação com o condicionamento apenas no contexto. Essa abordagem produz um sinal
de recompensa denso e sem verificador, permitindo um treinamento eficiente para todo o
fluxo de documentos durante o pré-treinamento. Especificamente, o RLP reformula o
aprendizado por reforço para raciocínio como um objetivo de pré-treinamento em texto
comum, preenchendo a lacuna entre a previsão do próximo token e o surgimento de cadeias
de pensamento úteis. O pré-treinamento com RLP no Qwen3-1.7B-Base eleva a média geral
em uma suíte de oito benchmarks de matemática e ciências em 19%. Com o mesmo pós-treinamento,
os ganhos se acumulam, com as maiores melhorias em tarefas pesadas de raciocínio, como
AIME25 e MMLU-Pro. A aplicação do RLP ao híbrido Nemotron-Nano-12B-v2 aumenta a média
geral de 42,81% para 61,32% e eleva a média em raciocínio científico em 23%, demonstrando
escalabilidade entre arquiteturas e tamanhos de modelos.
English
The dominant paradigm for training large reasoning models starts with
pre-training using next-token prediction loss on vast amounts of data.
Reinforcement learning, while powerful in scaling reasoning, is introduced only
as the very last phase of post-training, preceded by supervised fine-tuning.
While dominant, is this an optimal way of training? In this paper, we present
RLP, an information-driven reinforcement pretraining objective, that brings the
core spirit of reinforcement learning -- exploration -- to the last phase of
pretraining. The key idea is to treat chain-of-thought as an exploratory
action, with rewards computed based on the information gain it provides for
predicting future tokens. This training objective essentially encourages the
model to think for itself before predicting what comes next, thus teaching an
independent thinking behavior earlier in the pretraining. More concretely, the
reward signal measures the increase in log-likelihood of the next token when
conditioning on both context and a sampled reasoning chain, compared to
conditioning on context alone. This approach yields a verifier-free dense
reward signal, allowing for efficient training for the full document stream
during pretraining. Specifically, RLP reframes reinforcement learning for
reasoning as a pretraining objective on ordinary text, bridging the gap between
next-token prediction and the emergence of useful chain-of-thought reasoning.
Pretraining with RLP on Qwen3-1.7B-Base lifts the overall average across an
eight-benchmark math-and-science suite by 19%. With identical post-training,
the gains compound, with the largest improvements on reasoning-heavy tasks such
as AIME25 and MMLU-Pro. Applying RLP to the hybrid Nemotron-Nano-12B-v2
increases the overall average from 42.81% to 61.32% and raises the average on
scientific reasoning by 23%, demonstrating scalability across architectures and
model sizes.