Empujando más allá de la zona de confort: Exploración eficiente guiada por estrategias para RLVR

Resumen

El aprendizaje por refuerzo con recompensas verificables (RLVR) ha surgido como un paradigma escalable para mejorar las capacidades de razonamiento de los grandes modelos lingüísticos. Sin embargo, su efectividad está fundamentalmente limitada por la exploración: la política solo puede mejorar en trayectorias que ya ha muestreado. Si bien aumentar el número de ejecuciones alivia este problema, dicha expansión por fuerza bruta es computacionalmente costosa, y los enfoques existentes que modifican el objetivo de optimización proporcionan un control limitado sobre lo que se explora. En este trabajo, proponemos NudgeRL, un marco para la exploración estructurada e impulsada por la diversidad en RLVR. Nuestro enfoque introduce la Incitación Estratégica (Strategy Nudging), que condiciona cada ejecución a contextos ligeros a nivel de estrategia para inducir trayectorias de razonamiento diversas sin depender de una supervisión costosa mediante oráculos. Para aprender eficazmente de dicha exploración estructurada, proponemos además un objetivo unificado que descompone la señal de recompensa en componentes inter- e intra-contexto, e incorpora un objetivo de destilación para transferir los comportamientos descubiertos de vuelta a la política base. Empíricamente, NudgeRL supera al GRPO estándar con presupuestos de ejecución hasta 8 veces mayores, y supera en promedio a la línea base de RL guiada por oráculo en cinco exigentes puntos de referencia matemáticos. Estos resultados demuestran que la exploración estructurada e impulsada por contexto puede servir como una alternativa eficiente y escalable tanto a la expansión por fuerza bruta de ejecuciones como a los métodos orientados a la viabilidad basados en información privilegiada. Nuestro código está disponible en https://github.com/tally0818/NudgeRL.

English

Reinforcement learning with verifiable rewards (RLVR) has emerged as a scalable paradigm for improving the reasoning capabilities of large language models. However, its effectiveness is fundamentally limited by exploration: the policy can only improve on trajectories it has already sampled. While increasing the number of rollouts alleviates this issue, such brute-force scaling is computationally expensive, and existing approaches that modify the optimization objective provide limited control over what is explored. In this work, we propose NudgeRL, a framework for structured and diversity-driven exploration in RLVR. Our approach introduces Strategy Nudging, which conditions each rollout on lightweight, strategy-level contexts to induce diverse reasoning trajectories without relying on expensive oracle supervision. To effectively learn from such structured exploration, we further propose a unified objective, which decomposes the reward signal into inter- and intra-context components and incorporates a distillation objective to transfer discovered behaviors back to the base policy. Empirically, NudgeRL outperforms standard GRPO with up to 8 times larger rollout budgets, while outperforming oracle-guided RL baseline on average across five challenging math benchmarks. These results demonstrate that structured, context-driven exploration can serve as an efficient and scalable alternative to both brute-force rollout scaling and feasibility-oriented methods based on privileged information. Our code is available at https://github.com/tally0818/NudgeRL.