Подталкивание за пределы зоны комфорта: эффективное исследование, направляемое стратегией, для RLVR

Аннотация

Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) стало масштабируемой парадигмой для улучшения способностей к рассуждению больших языковых моделей. Однако его эффективность принципиально ограничена исследованием: политика может улучшаться только на тех траекториях, которые она уже сэмплировала. Хотя увеличение количества прогонов (rollouts) смягчает эту проблему, такое масштабирование методом грубой силы вычислительно затратно, а существующие подходы, изменяющие цель оптимизации, обеспечивают ограниченный контроль над тем, что исследуется. В данной работе мы предлагаем NudgeRL — фреймворк для структурированного и управляемого разнообразием исследования в RLVR. Наш подход вводит стратегическое подталкивание (Strategy Nudging), которое обуславливает каждый прогон легковесными контекстами на уровне стратегий для порождения разнообразных траекторий рассуждения без использования дорогостоящего контроля со стороны оракула. Для эффективного обучения на основе такого структурированного исследования мы дополнительно предлагаем унифицированную целевую функцию, которая разлагает сигнал вознаграждения на межконтекстные и внутриконтекстные компоненты и включает цель дистилляции для переноса обнаруженных поведений обратно в базовую политику. Эмпирически NudgeRL превосходит стандартный GRPO с бюджетами прогонов, увеличенными до 8 раз, а также в среднем превосходит базовый метод RL с управлением от оракула на пяти сложных математических бенчмарках. Эти результаты демонстрируют, что структурированное, управляемое контекстом исследование может служить эффективной и масштабируемой альтернативой как масштабированию прогонов методом грубой силы, так и методам, ориентированным на осуществимость и основанным на привилегированной информации. Наш код доступен по адресу https://github.com/tally0818/NudgeRL.

English

Reinforcement learning with verifiable rewards (RLVR) has emerged as a scalable paradigm for improving the reasoning capabilities of large language models. However, its effectiveness is fundamentally limited by exploration: the policy can only improve on trajectories it has already sampled. While increasing the number of rollouts alleviates this issue, such brute-force scaling is computationally expensive, and existing approaches that modify the optimization objective provide limited control over what is explored. In this work, we propose NudgeRL, a framework for structured and diversity-driven exploration in RLVR. Our approach introduces Strategy Nudging, which conditions each rollout on lightweight, strategy-level contexts to induce diverse reasoning trajectories without relying on expensive oracle supervision. To effectively learn from such structured exploration, we further propose a unified objective, which decomposes the reward signal into inter- and intra-context components and incorporates a distillation objective to transfer discovered behaviors back to the base policy. Empirically, NudgeRL outperforms standard GRPO with up to 8 times larger rollout budgets, while outperforming oracle-guided RL baseline on average across five challenging math benchmarks. These results demonstrate that structured, context-driven exploration can serve as an efficient and scalable alternative to both brute-force rollout scaling and feasibility-oriented methods based on privileged information. Our code is available at https://github.com/tally0818/NudgeRL.