Nudging au-delà de la zone de confort : Exploration efficace guidée par stratégie pour RLVR

Résumé

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est devenu un paradigme scalable pour améliorer les capacités de raisonnement des grands modèles de langage. Cependant, son efficacité est fondamentalement limitée par l'exploration : la politique ne peut s'améliorer que sur les trajectoires déjà échantillonnées. Bien qu'augmenter le nombre de déploiements atténue ce problème, ce passage à l'échelle par force brute est coûteux en calcul, et les approches existantes modifiant l'objectif d'optimisation offrent un contrôle limité sur ce qui est exploré. Dans ce travail, nous proposons NudgeRL, un cadre pour une exploration structurée et axée sur la diversité dans le RLVR. Notre approche introduit l'Incitation Stratégique (Strategy Nudging), qui conditionne chaque déploiement sur des contextes légers au niveau stratégique afin de générer des trajectoires de raisonnement diverses sans recourir à une supervision oracle coûteuse. Pour apprendre efficacement de cette exploration structurée, nous proposons également un objectif unifié, qui décompose le signal de récompense en composantes inter- et intra-contexte et intègre un objectif de distillation pour transférer les comportements découverts à la politique de base. Empiriquement, NudgeRL surpasse le GRPO standard avec des budgets de déploiement jusqu'à 8 fois plus importants, tout en surpassant la référence RL guidée par oracle en moyenne sur cinq benchmarks mathématiques difficiles. Ces résultats démontrent que l'exploration structurée et guidée par le contexte peut servir d'alternative efficace et scalable tant au passage à l'échelle par force brute des déploiements qu'aux méthodes orientées faisabilité reposant sur des informations privilégiées. Notre code est disponible à l'adresse https://github.com/tally0818/NudgeRL.

English

Reinforcement learning with verifiable rewards (RLVR) has emerged as a scalable paradigm for improving the reasoning capabilities of large language models. However, its effectiveness is fundamentally limited by exploration: the policy can only improve on trajectories it has already sampled. While increasing the number of rollouts alleviates this issue, such brute-force scaling is computationally expensive, and existing approaches that modify the optimization objective provide limited control over what is explored. In this work, we propose NudgeRL, a framework for structured and diversity-driven exploration in RLVR. Our approach introduces Strategy Nudging, which conditions each rollout on lightweight, strategy-level contexts to induce diverse reasoning trajectories without relying on expensive oracle supervision. To effectively learn from such structured exploration, we further propose a unified objective, which decomposes the reward signal into inter- and intra-context components and incorporates a distillation objective to transfer discovered behaviors back to the base policy. Empirically, NudgeRL outperforms standard GRPO with up to 8 times larger rollout budgets, while outperforming oracle-guided RL baseline on average across five challenging math benchmarks. These results demonstrate that structured, context-driven exploration can serve as an efficient and scalable alternative to both brute-force rollout scaling and feasibility-oriented methods based on privileged information. Our code is available at https://github.com/tally0818/NudgeRL.