Nudging voorbij de comfortzone: Efficiënte strategiegestuurde verkenning voor RLVR

Samenvatting

Reinforcement learning met verifieerbare beloningen (RLVR) is naar voren gekomen als een schaalbaar paradigma voor het verbeteren van de redeneercapaciteiten van grote taalmodellen. De effectiviteit ervan wordt echter fundamenteel beperkt door exploratie: het beleid kan alleen verbeteren op trajecten die het al heeft bemonsterd. Hoewel het verhogen van het aantal rollouts dit probleem verlicht, is dergelijke brute-force schaling rekenkundig duur, en bestaande benaderingen die de optimalisatiedoelstelling wijzigen bieden beperkte controle over wat er wordt onderzocht. In dit werk stellen we NudgeRL voor, een raamwerk voor gestructureerde en diversiteitsgedreven exploratie in RLVR. Onze aanpak introduceert Strategie-Nudging, waarbij elke rollout wordt geconditioneerd op lichtgewicht contexten op strategieniveau om diverse redeneertrajecten te induceren zonder afhankelijk te zijn van dure orakelsupervisie. Om effectief te leren van dergelijke gestructureerde exploratie, stellen we verder een uniforme doelstelling voor, die het beloningssignaal ontleedt in inter- en intra-context componenten en een distillatiedoelstelling integreert om ontdekte gedragingen terug te dragen naar het basisbeleid. Empirisch gezien presteert NudgeRL beter dan standaard GRPO met tot 8 keer grotere rolloutbudgetten, terwijl het gemiddeld beter presteert dan de orakelgestuurde RL-baseline op vijf uitdagende wiskundebenchmarks. Deze resultaten tonen aan dat gestructureerde, contextgedreven exploratie kan dienen als een efficiënt en schaalbaar alternatief voor zowel brute-force rollouts-schaling als haalbaarheidsgerichte methoden op basis van bevoorrechte informatie. Onze code is beschikbaar op https://github.com/tally0818/NudgeRL.

English

Reinforcement learning with verifiable rewards (RLVR) has emerged as a scalable paradigm for improving the reasoning capabilities of large language models. However, its effectiveness is fundamentally limited by exploration: the policy can only improve on trajectories it has already sampled. While increasing the number of rollouts alleviates this issue, such brute-force scaling is computationally expensive, and existing approaches that modify the optimization objective provide limited control over what is explored. In this work, we propose NudgeRL, a framework for structured and diversity-driven exploration in RLVR. Our approach introduces Strategy Nudging, which conditions each rollout on lightweight, strategy-level contexts to induce diverse reasoning trajectories without relying on expensive oracle supervision. To effectively learn from such structured exploration, we further propose a unified objective, which decomposes the reward signal into inter- and intra-context components and incorporates a distillation objective to transfer discovered behaviors back to the base policy. Empirically, NudgeRL outperforms standard GRPO with up to 8 times larger rollout budgets, while outperforming oracle-guided RL baseline on average across five challenging math benchmarks. These results demonstrate that structured, context-driven exploration can serve as an efficient and scalable alternative to both brute-force rollout scaling and feasibility-oriented methods based on privileged information. Our code is available at https://github.com/tally0818/NudgeRL.