RLP : Le renforcement comme objectif de pré-entraînement
RLP: Reinforcement as a Pretraining Objective
September 26, 2025
papers.authors: Ali Hatamizadeh, Syeda Nahida Akter, Shrimai Prabhumoye, Jan Kautz, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro, Yejin Choi
cs.AI
papers.abstract
Le paradigme dominant pour l'entraînement de grands modèles de raisonnement commence par un pré-entraînement utilisant une perte de prédiction de token suivant sur de vastes quantités de données. L'apprentissage par renforcement, bien que puissant pour mettre à l'échelle le raisonnement, n'est introduit qu'à la toute dernière phase de post-entraînement, précédé par un réglage fin supervisé. Bien que dominant, cette méthode est-elle optimale pour l'entraînement ? Dans cet article, nous présentons RLP, un objectif de pré-entraînement par renforcement guidé par l'information, qui apporte l'esprit central de l'apprentissage par renforcement — l'exploration — à la dernière phase du pré-entraînement. L'idée clé est de traiter la chaîne de pensée comme une action exploratoire, avec des récompenses calculées en fonction du gain d'information qu'elle fournit pour prédire les tokens futurs. Cet objectif d'entraînement encourage essentiellement le modèle à réfléchir par lui-même avant de prédire ce qui suit, enseignant ainsi un comportement de pensée indépendante plus tôt dans le pré-entraînement. Plus concrètement, le signal de récompense mesure l'augmentation de la log-vraisemblance du token suivant lorsque l'on conditionne à la fois sur le contexte et une chaîne de raisonnement échantillonnée, par rapport à un conditionnement sur le contexte seul. Cette approche produit un signal de récompense dense sans vérificateur, permettant un entraînement efficace pour le flux complet de documents pendant le pré-entraînement. Plus précisément, RLP reformule l'apprentissage par renforcement pour le raisonnement comme un objectif de pré-entraînement sur du texte ordinaire, comblant ainsi l'écart entre la prédiction de token suivant et l'émergence d'une chaîne de pensée utile. Le pré-entraînement avec RLP sur Qwen3-1.7B-Base améliore la moyenne globale sur une suite de huit benchmarks en mathématiques et sciences de 19 %. Avec un post-entraînement identique, les gains se cumulent, avec les plus fortes améliorations sur des tâches exigeantes en raisonnement comme AIME25 et MMLU-Pro. L'application de RLP au modèle hybride Nemotron-Nano-12B-v2 augmente la moyenne globale de 42,81 % à 61,32 % et élève la moyenne en raisonnement scientifique de 23 %, démontrant ainsi une scalabilité à travers les architectures et les tailles de modèles.
English
The dominant paradigm for training large reasoning models starts with
pre-training using next-token prediction loss on vast amounts of data.
Reinforcement learning, while powerful in scaling reasoning, is introduced only
as the very last phase of post-training, preceded by supervised fine-tuning.
While dominant, is this an optimal way of training? In this paper, we present
RLP, an information-driven reinforcement pretraining objective, that brings the
core spirit of reinforcement learning -- exploration -- to the last phase of
pretraining. The key idea is to treat chain-of-thought as an exploratory
action, with rewards computed based on the information gain it provides for
predicting future tokens. This training objective essentially encourages the
model to think for itself before predicting what comes next, thus teaching an
independent thinking behavior earlier in the pretraining. More concretely, the
reward signal measures the increase in log-likelihood of the next token when
conditioning on both context and a sampled reasoning chain, compared to
conditioning on context alone. This approach yields a verifier-free dense
reward signal, allowing for efficient training for the full document stream
during pretraining. Specifically, RLP reframes reinforcement learning for
reasoning as a pretraining objective on ordinary text, bridging the gap between
next-token prediction and the emergence of useful chain-of-thought reasoning.
Pretraining with RLP on Qwen3-1.7B-Base lifts the overall average across an
eight-benchmark math-and-science suite by 19%. With identical post-training,
the gains compound, with the largest improvements on reasoning-heavy tasks such
as AIME25 and MMLU-Pro. Applying RLP to the hybrid Nemotron-Nano-12B-v2
increases the overall average from 42.81% to 61.32% and raises the average on
scientific reasoning by 23%, demonstrating scalability across architectures and
model sizes.