Estimulando Além da Zona de Conforto: Exploração Eficiente Guiada por Estratégias para RLVR

Resumo

A aprendizagem por reforço com recompensas verificáveis (RLVR) emergiu como um paradigma escalável para melhorar as capacidades de raciocínio de modelos de linguagem de grande escala. No entanto, sua eficácia é fundamentalmente limitada pela exploração: a política só pode melhorar nas trajetórias que já amostrou. Embora aumentar o número de *rollouts* alivie esse problema, essa escalabilidade por força bruta é computacionalmente cara, e abordagens existentes que modificam o objetivo de otimização fornecem controle limitado sobre o que é explorado. Neste trabalho, propomos o NudgeRL, uma estrutura para exploração estruturada e orientada pela diversidade em RLVR. Nossa abordagem introduz o *Strategy Nudging*, que condiciona cada *rollout* a contextos leves no nível de estratégia para induzir trajetórias de raciocínio diversas sem depender de supervisão cara de oráculo. Para aprender eficazmente com essa exploração estruturada, propomos ainda um objetivo unificado, que decompõe o sinal de recompensa em componentes inter e intra-contexto e incorpora um objetivo de destilação para transferir comportamentos descobertos de volta para a política base. Empiricamente, o NudgeRL supera o GRPO padrão com orçamentos de *rollout* até 8 vezes maiores, ao mesmo tempo que supera a linha de base de RL orientada por oráculo em média em cinco *benchmarks* desafiadores de matemática. Esses resultados demonstram que a exploração estruturada e orientada por contexto pode servir como uma alternativa eficiente e escalável tanto para a escalabilidade de *rollouts* por força bruta quanto para métodos orientados à viabilidade baseados em informações privilegiadas. Nosso código está disponível em https://github.com/tally0818/NudgeRL.

English

Reinforcement learning with verifiable rewards (RLVR) has emerged as a scalable paradigm for improving the reasoning capabilities of large language models. However, its effectiveness is fundamentally limited by exploration: the policy can only improve on trajectories it has already sampled. While increasing the number of rollouts alleviates this issue, such brute-force scaling is computationally expensive, and existing approaches that modify the optimization objective provide limited control over what is explored. In this work, we propose NudgeRL, a framework for structured and diversity-driven exploration in RLVR. Our approach introduces Strategy Nudging, which conditions each rollout on lightweight, strategy-level contexts to induce diverse reasoning trajectories without relying on expensive oracle supervision. To effectively learn from such structured exploration, we further propose a unified objective, which decomposes the reward signal into inter- and intra-context components and incorporates a distillation objective to transfer discovered behaviors back to the base policy. Empirically, NudgeRL outperforms standard GRPO with up to 8 times larger rollout budgets, while outperforming oracle-guided RL baseline on average across five challenging math benchmarks. These results demonstrate that structured, context-driven exploration can serve as an efficient and scalable alternative to both brute-force rollout scaling and feasibility-oriented methods based on privileged information. Our code is available at https://github.com/tally0818/NudgeRL.