RLP: Обучение с подкреплением как цель предварительного обучения
RLP: Reinforcement as a Pretraining Objective
September 26, 2025
Авторы: Ali Hatamizadeh, Syeda Nahida Akter, Shrimai Prabhumoye, Jan Kautz, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro, Yejin Choi
cs.AI
Аннотация
Доминирующая парадигма обучения крупных моделей рассуждений начинается с предварительного обучения с использованием функции потерь предсказания следующего токена на огромных объемах данных. Обучение с подкреплением, хотя и мощное в масштабировании рассуждений, вводится только на самом последнем этапе пост-обучения, после контролируемой тонкой настройки. Является ли этот подход оптимальным? В данной статье мы представляем RLP (Reinforcement Learning Pretraining), целевую функцию предварительного обучения, основанную на информации, которая привносит ключевую идею обучения с подкреплением — исследование — на последний этап предварительного обучения. Основная идея заключается в том, чтобы рассматривать цепочку рассуждений как исследовательское действие, с наградами, вычисляемыми на основе прироста информации, который она предоставляет для предсказания будущих токенов. Эта целевая функция поощряет модель "думать самостоятельно" перед тем, как предсказать следующий токен, тем самым обучая поведению независимого мышления на более ранних этапах предварительного обучения. Конкретно, сигнал награды измеряет увеличение логарифмического правдоподобия следующего токена при условии как контекста, так и выбранной цепочки рассуждений, по сравнению с условием только контекста. Этот подход обеспечивает плотный сигнал награды без необходимости верификации, что позволяет эффективно обучать модель на полном потоке документов во время предварительного обучения. В частности, RLP переосмысливает обучение с подкреплением для рассуждений как целевую функцию предварительного обучения на обычном тексте, устраняя разрыв между предсказанием следующего токена и появлением полезных цепочек рассуждений. Предварительное обучение с использованием RLP на модели Qwen3-1.7B-Base повышает средний результат на восьми тестах по математике и естественным наукам на 19%. При идентичном пост-обучении преимущества накапливаются, с наибольшими улучшениями на задачах, требующих интенсивных рассуждений, таких как AIME25 и MMLU-Pro. Применение RLP к гибридной модели Nemotron-Nano-12B-v2 увеличивает средний результат с 42.81% до 61.32% и повышает средний результат на научных рассуждениях на 23%, демонстрируя масштабируемость для различных архитектур и размеров моделей.
English
The dominant paradigm for training large reasoning models starts with
pre-training using next-token prediction loss on vast amounts of data.
Reinforcement learning, while powerful in scaling reasoning, is introduced only
as the very last phase of post-training, preceded by supervised fine-tuning.
While dominant, is this an optimal way of training? In this paper, we present
RLP, an information-driven reinforcement pretraining objective, that brings the
core spirit of reinforcement learning -- exploration -- to the last phase of
pretraining. The key idea is to treat chain-of-thought as an exploratory
action, with rewards computed based on the information gain it provides for
predicting future tokens. This training objective essentially encourages the
model to think for itself before predicting what comes next, thus teaching an
independent thinking behavior earlier in the pretraining. More concretely, the
reward signal measures the increase in log-likelihood of the next token when
conditioning on both context and a sampled reasoning chain, compared to
conditioning on context alone. This approach yields a verifier-free dense
reward signal, allowing for efficient training for the full document stream
during pretraining. Specifically, RLP reframes reinforcement learning for
reasoning as a pretraining objective on ordinary text, bridging the gap between
next-token prediction and the emergence of useful chain-of-thought reasoning.
Pretraining with RLP on Qwen3-1.7B-Base lifts the overall average across an
eight-benchmark math-and-science suite by 19%. With identical post-training,
the gains compound, with the largest improvements on reasoning-heavy tasks such
as AIME25 and MMLU-Pro. Applying RLP to the hybrid Nemotron-Nano-12B-v2
increases the overall average from 42.81% to 61.32% and raises the average on
scientific reasoning by 23%, demonstrating scalability across architectures and
model sizes.