ChatPaper.aiChatPaper

RLP: Rinforzo come Obiettivo di Pretraining

RLP: Reinforcement as a Pretraining Objective

September 26, 2025
Autori: Ali Hatamizadeh, Syeda Nahida Akter, Shrimai Prabhumoye, Jan Kautz, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro, Yejin Choi
cs.AI

Abstract

Il paradigma dominante per l'addestramento di modelli di ragionamento su larga scala inizia con un pre-addestramento basato sulla perdita di previsione del token successivo su grandi quantità di dati. L'apprendimento per rinforzo, sebbene potente nel potenziare il ragionamento, viene introdotto solo come fase finale del post-addestramento, preceduto da un affinamento supervisionato. Ma è davvero il modo ottimale di addestrare? In questo articolo, presentiamo RLP, un obiettivo di pre-addestramento basato sull'informazione e guidato dall'apprendimento per rinforzo, che porta lo spirito fondamentale di quest'ultimo — l'esplorazione — all'ultima fase del pre-addestramento. L'idea chiave è trattare la catena di pensiero come un'azione esplorativa, con ricompense calcolate in base al guadagno informativo che fornisce per prevedere i token futuri. Questo obiettivo di addestramento incoraggia essenzialmente il modello a pensare autonomamente prima di prevedere ciò che segue, insegnando così un comportamento di pensiero indipendente già durante il pre-addestramento. Più concretamente, il segnale di ricompensa misura l'aumento della log-verosimiglianza del token successivo quando si condiziona sia sul contesto che su una catena di ragionamento campionata, rispetto al condizionamento sul solo contesto. Questo approccio produce un segnale di ricompensa denso e privo di verificatori, consentendo un addestramento efficiente sull'intero flusso di documenti durante il pre-addestramento. In particolare, RLP riformula l'apprendimento per rinforzo per il ragionamento come un obiettivo di pre-addestramento su testo ordinario, colmando il divario tra la previsione del token successivo e l'emergere di utili catene di pensiero. Il pre-addestramento con RLP su Qwen3-1.7B-Base aumenta la media complessiva su una suite di otto benchmark di matematica e scienze del 19%. Con un post-addestramento identico, i guadagni si cumulano, con i miglioramenti più significativi su compiti ad alto contenuto di ragionamento come AIME25 e MMLU-Pro. Applicando RLP all'ibrido Nemotron-Nano-12B-v2, la media complessiva passa dal 42,81% al 61,32%, con un aumento del 23% sulla media del ragionamento scientifico, dimostrando scalabilità tra architetture e dimensioni del modello.
English
The dominant paradigm for training large reasoning models starts with pre-training using next-token prediction loss on vast amounts of data. Reinforcement learning, while powerful in scaling reasoning, is introduced only as the very last phase of post-training, preceded by supervised fine-tuning. While dominant, is this an optimal way of training? In this paper, we present RLP, an information-driven reinforcement pretraining objective, that brings the core spirit of reinforcement learning -- exploration -- to the last phase of pretraining. The key idea is to treat chain-of-thought as an exploratory action, with rewards computed based on the information gain it provides for predicting future tokens. This training objective essentially encourages the model to think for itself before predicting what comes next, thus teaching an independent thinking behavior earlier in the pretraining. More concretely, the reward signal measures the increase in log-likelihood of the next token when conditioning on both context and a sampled reasoning chain, compared to conditioning on context alone. This approach yields a verifier-free dense reward signal, allowing for efficient training for the full document stream during pretraining. Specifically, RLP reframes reinforcement learning for reasoning as a pretraining objective on ordinary text, bridging the gap between next-token prediction and the emergence of useful chain-of-thought reasoning. Pretraining with RLP on Qwen3-1.7B-Base lifts the overall average across an eight-benchmark math-and-science suite by 19%. With identical post-training, the gains compound, with the largest improvements on reasoning-heavy tasks such as AIME25 and MMLU-Pro. Applying RLP to the hybrid Nemotron-Nano-12B-v2 increases the overall average from 42.81% to 61.32% and raises the average on scientific reasoning by 23%, demonstrating scalability across architectures and model sizes.
PDF394October 3, 2025