От P(y|x) к P(y): Исследование обучения с подкреплением в пространстве предварительного обучения

Аннотация

Хотя обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) значительно улучшает рассуждения больших языковых моделей (LLM) за счёт оптимизации условного распределения P(y|x), его потенциал фундаментально ограничен существующим распределением выходных данных базовой модели. Оптимизация маргинального распределения P(y) в пространстве предобучения преодолевает это узкое место, кодируя способность к рассуждению и сохраняя широкие возможности для исследования. Однако традиционное предобучение опирается на статические корпуса для пассивного обучения, что приводит к сдвигу распределения, препятствующему целенаправленному улучшению рассуждений. В данной статье мы представляем PreRL (Reinforcement Learning в пространстве предобучения), который применяет управляемые вознаграждением онлайн-обновления непосредственно к P(y). Мы теоретически и эмпирически подтверждаем сильное выравнивание градиентов между log P(y) и log P(y|x), устанавливая PreRL в качестве жизнеспособной замены стандартному обучению с подкреплением. Кроме того, мы раскрываем ключевой механизм: подкрепление негативных примеров (Negative Sample Reinforcement, NSR) в рамках PreRL служит исключительно эффективным драйвером для рассуждений. NSR-PreRL быстро отсекает неправильные пространства рассуждений, одновременно стимулируя эндогенные рефлексивные поведения, увеличивая переходные и рефлексивные мысли в 14,89 и 6,54 раза соответственно. Используя эти идеи, мы предлагаем Dual Space RL (DSRL), стратегию реинкарнации политики, которая инициализирует модели с помощью NSR-PreRL для расширения горизонта рассуждений перед переходом к стандартному обучению с подкреплением для тонкой оптимизации. Многочисленные эксперименты демонстрируют, что DSRL последовательно превосходит сильные базовые уровни, доказывая, что прореживание пространства предобучения эффективно направляет политику в уточнённое подпространство правильных рассуждений.

English

While reinforcement learning with verifiable rewards (RLVR) significantly enhances LLM reasoning by optimizing the conditional distribution P(y|x), its potential is fundamentally bounded by the base model's existing output distribution. Optimizing the marginal distribution P(y) in the Pre-train Space addresses this bottleneck by encoding reasoning ability and preserving broad exploration capacity. Yet, conventional pre-training relies on static corpora for passive learning, leading to a distribution shift that hinders targeted reasoning enhancement. In this paper, we introduce PreRL (Pre-train Space RL), which applies reward-driven online updates directly to P(y). We theoretically and empirically validate the strong gradient alignment between log P(y) and log P(y|x), establishing PreRL as a viable surrogate for standard RL. Furthermore, we uncover a critical mechanism: Negative Sample Reinforcement (NSR) within PreRL serves as an exceptionally effective driver for reasoning. NSR-PreRL rapidly prunes incorrect reasoning spaces while stimulating endogenous reflective behaviors, increasing transition and reflection thoughts by 14.89x and 6.54x, respectively. Leveraging these insights, we propose Dual Space RL (DSRL), a Policy Reincarnation strategy that initializes models with NSR-PreRL to expand the reasoning horizon before transitioning to standard RL for fine-grained optimization. Extensive experiments demonstrate that DSRL consistently outperforms strong baselines, proving that pre-train space pruning effectively steers the policy toward a refined correct reasoning subspace.

От P(y|x) к P(y): Исследование обучения с подкреплением в пространстве предварительного обучения

From P(y|x) to P(y): Investigating Reinforcement Learning in Pre-train Space

Аннотация

Support