RLP: El Refuerzo como Objetivo de Pretrenamiento
RLP: Reinforcement as a Pretraining Objective
September 26, 2025
Autores: Ali Hatamizadeh, Syeda Nahida Akter, Shrimai Prabhumoye, Jan Kautz, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro, Yejin Choi
cs.AI
Resumen
El paradigma dominante para entrenar modelos de razonamiento a gran escala comienza con un preentrenamiento utilizando la pérdida de predicción del siguiente token en grandes volúmenes de datos. El aprendizaje por refuerzo, aunque poderoso para escalar el razonamiento, se introduce únicamente como la fase final del postentrenamiento, precedido por un ajuste fino supervisado. Si bien es dominante, ¿es esta la forma óptima de entrenamiento? En este artículo, presentamos RLP, un objetivo de preentrenamiento por refuerzo basado en la información, que lleva el espíritu central del aprendizaje por refuerzo —la exploración— a la última fase del preentrenamiento. La idea clave es tratar la cadena de pensamiento como una acción exploratoria, con recompensas calculadas en función de la ganancia de información que proporciona para predecir tokens futuros. Este objetivo de entrenamiento esencialmente fomenta que el modelo piense por sí mismo antes de predecir lo que sigue, enseñando así un comportamiento de pensamiento independiente más temprano en el preentrenamiento. Más concretamente, la señal de recompensa mide el aumento en la log-verosimilitud del siguiente token al condicionar tanto en el contexto como en una cadena de razonamiento muestreada, en comparación con condicionar únicamente en el contexto. Este enfoque produce una señal de recompensa densa sin necesidad de verificadores, permitiendo un entrenamiento eficiente para el flujo completo de documentos durante el preentrenamiento. Específicamente, RLP reformula el aprendizaje por refuerzo para el razonamiento como un objetivo de preentrenamiento en texto ordinario, cerrando la brecha entre la predicción del siguiente token y la emergencia de cadenas de pensamiento útiles. El preentrenamiento con RLP en Qwen3-1.7B-Base eleva el promedio general en una suite de ocho puntos de referencia de matemáticas y ciencias en un 19%. Con un postentrenamiento idéntico, las ganancias se acumulan, con las mayores mejoras en tareas intensivas en razonamiento como AIME25 y MMLU-Pro. La aplicación de RLP al híbrido Nemotron-Nano-12B-v2 aumenta el promedio general del 42.81% al 61.32% y eleva el promedio en razonamiento científico en un 23%, demostrando escalabilidad en diferentes arquitecturas y tamaños de modelos.
English
The dominant paradigm for training large reasoning models starts with
pre-training using next-token prediction loss on vast amounts of data.
Reinforcement learning, while powerful in scaling reasoning, is introduced only
as the very last phase of post-training, preceded by supervised fine-tuning.
While dominant, is this an optimal way of training? In this paper, we present
RLP, an information-driven reinforcement pretraining objective, that brings the
core spirit of reinforcement learning -- exploration -- to the last phase of
pretraining. The key idea is to treat chain-of-thought as an exploratory
action, with rewards computed based on the information gain it provides for
predicting future tokens. This training objective essentially encourages the
model to think for itself before predicting what comes next, thus teaching an
independent thinking behavior earlier in the pretraining. More concretely, the
reward signal measures the increase in log-likelihood of the next token when
conditioning on both context and a sampled reasoning chain, compared to
conditioning on context alone. This approach yields a verifier-free dense
reward signal, allowing for efficient training for the full document stream
during pretraining. Specifically, RLP reframes reinforcement learning for
reasoning as a pretraining objective on ordinary text, bridging the gap between
next-token prediction and the emergence of useful chain-of-thought reasoning.
Pretraining with RLP on Qwen3-1.7B-Base lifts the overall average across an
eight-benchmark math-and-science suite by 19%. With identical post-training,
the gains compound, with the largest improvements on reasoning-heavy tasks such
as AIME25 and MMLU-Pro. Applying RLP to the hybrid Nemotron-Nano-12B-v2
increases the overall average from 42.81% to 61.32% and raises the average on
scientific reasoning by 23%, demonstrating scalability across architectures and
model sizes.