Aucun Prompt Laissé Pour Compte : Exploitation des Prompts à Variance Nulle dans l'Apprentissage par Renforcement des LLM via un Façonnage d'Avantage Guidé par l'Entropie
No Prompt Left Behind: Exploiting Zero-Variance Prompts in LLM Reinforcement Learning via Entropy-Guided Advantage Shaping
September 26, 2025
papers.authors: Thanh-Long V. Le, Myeongho Jeon, Kim Vu, Viet Lai, Eunho Yang
cs.AI
papers.abstract
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est un cadre puissant pour améliorer les capacités de raisonnement des grands modèles de langage (LLM). Cependant, les méthodes actuelles telles que GRPO se basent uniquement sur des problèmes où les réponses du modèle à la même entrée diffèrent en termes de justesse, tout en ignorant celles où toutes les réponses reçoivent la même récompense - les prompts dits à variance nulle. Dans ce travail, nous soutenons que ces prompts ne sont pas inutiles, mais peuvent en réalité fournir un retour d'information significatif pour l'optimisation des politiques. À cette fin, nous introduisons l'apprentissage par renforcement avec prompts à variance nulle (RL-ZVP), un nouvel algorithme qui extrait des signaux d'apprentissage à partir de prompts à variance nulle. RL-ZVP récompense directement la justesse et pénalise les erreurs même sans comparer les réponses, en modulant le retour d'information avec des caractéristiques au niveau des tokens pour préserver des signaux informatifs et nuancés. Sur six benchmarks de raisonnement mathématique, RL-ZVP obtient des améliorations significatives allant jusqu'à 8,61 points en précision et 7,77 points en taux de réussite par rapport à GRPO, tout en surpassant systématiquement d'autres méthodes de référence qui filtrent les prompts à variance nulle. Ces résultats mettent en lumière le potentiel inexploité de l'apprentissage à partir de prompts à variance nulle dans le cadre du RLVR.
English
Reinforcement Learning with Verifiable Rewards (RLVR) is a powerful framework
for improving the reasoning abilities of Large Language Models (LLMs). However,
current methods such as GRPO rely only on problems where the model responses to
the same input differ in correctness, while ignoring those where all responses
receive the same reward - so-called zero-variance prompts. In this work, we
argue that such prompts are not useless but can, in fact, provide meaningful
feedback for policy optimization. To this end, we introduce RL with
Zero-Variance Prompts (RL-ZVP), a novel algorithm that extract learning signals
from zero-variance prompts. RL-ZVP directly rewards correctness and penalizes
errors even without contrasting responses, modulating feedback with token-level
characteristics to preserve informative, nuanced signals. Across six math
reasoning benchmarks, RL-ZVP achieves significant improvements of up to 8.61
points in accuracy and 7.77 points in pass rate over GRPO, while consistently
outperforming other baselines that filter out zero-variance prompts. These
results highlight the untapped potential of learning from zero-variance prompts
in RLVR.