RLP: Versterking als een Pretrainingsdoelstelling
RLP: Reinforcement as a Pretraining Objective
September 26, 2025
Auteurs: Ali Hatamizadeh, Syeda Nahida Akter, Shrimai Prabhumoye, Jan Kautz, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro, Yejin Choi
cs.AI
Samenvatting
Het dominante paradigma voor het trainen van grote redeneermodellen begint met
voorafgaande training met behulp van een verliesfunctie voor volgende-token-voorspelling op enorme hoeveelheden data.
Versterkend leren, hoewel krachtig in het schalen van redeneren, wordt pas geïntroduceerd
als de allerlaatste fase van de na-training, voorafgegaan door begeleide fine-tuning.
Hoewel dominant, is dit een optimale manier van trainen? In dit artikel presenteren we
RLP, een informatie-gestuurd doel voor versterkende voorafgaande training, dat de
kern van versterkend leren – exploratie – naar de laatste fase van de
voorafgaande training brengt. Het sleutelidee is om keten-van-gedachten te behandelen als een verkennende
actie, met beloningen berekend op basis van de informatieversterking die het biedt voor
het voorspellen van toekomstige tokens. Dit trainingsdoel moedigt in wezen het model aan
om zelf na te denken voordat het voorspelt wat er komt, waardoor het een onafhankelijk
denkgedrag eerder in de voorafgaande training aanleert. Concreter meet het
beloningssignaal de toename in log-waarschijnlijkheid van het volgende token wanneer
geconditioneerd op zowel context als een bemonsterde redeneerketen, vergeleken met
conditionering op context alleen. Deze aanpak levert een verificatievrij dicht
beloningssignaal op, waardoor efficiënte training voor de volledige documentstroom
tijdens de voorafgaande training mogelijk is. Specifiek herformuleert RLP versterkend leren voor
redeneren als een doel voor voorafgaande training op gewone tekst, waardoor de kloof tussen
volgende-token-voorspelling en het ontstaan van nuttige keten-van-gedachten redenering wordt overbrugd.
Voorafgaande training met RLP op Qwen3-1.7B-Base verhoogt het algemene gemiddelde over een
acht-benchmark wiskunde-en-wetenschap suite met 19%. Met identieke na-training
stapelen de winsten zich op, met de grootste verbeteringen op redenering-zware taken zoals
AIME25 en MMLU-Pro. Toepassing van RLP op de hybride Nemotron-Nano-12B-v2
verhoogt het algemene gemiddelde van 42,81% naar 61,32% en verhoogt het gemiddelde op
wetenschappelijk redeneren met 23%, wat schaalbaarheid over architecturen en
modelgroottes aantoont.
English
The dominant paradigm for training large reasoning models starts with
pre-training using next-token prediction loss on vast amounts of data.
Reinforcement learning, while powerful in scaling reasoning, is introduced only
as the very last phase of post-training, preceded by supervised fine-tuning.
While dominant, is this an optimal way of training? In this paper, we present
RLP, an information-driven reinforcement pretraining objective, that brings the
core spirit of reinforcement learning -- exploration -- to the last phase of
pretraining. The key idea is to treat chain-of-thought as an exploratory
action, with rewards computed based on the information gain it provides for
predicting future tokens. This training objective essentially encourages the
model to think for itself before predicting what comes next, thus teaching an
independent thinking behavior earlier in the pretraining. More concretely, the
reward signal measures the increase in log-likelihood of the next token when
conditioning on both context and a sampled reasoning chain, compared to
conditioning on context alone. This approach yields a verifier-free dense
reward signal, allowing for efficient training for the full document stream
during pretraining. Specifically, RLP reframes reinforcement learning for
reasoning as a pretraining objective on ordinary text, bridging the gap between
next-token prediction and the emergence of useful chain-of-thought reasoning.
Pretraining with RLP on Qwen3-1.7B-Base lifts the overall average across an
eight-benchmark math-and-science suite by 19%. With identical post-training,
the gains compound, with the largest improvements on reasoning-heavy tasks such
as AIME25 and MMLU-Pro. Applying RLP to the hybrid Nemotron-Nano-12B-v2
increases the overall average from 42.81% to 61.32% and raises the average on
scientific reasoning by 23%, demonstrating scalability across architectures and
model sizes.