ChatPaper.aiChatPaper

Geen Prompt Achtergelaten: Benutten van Nul-Variantie Prompts in LLM Versterkend Leren via Entropie-Gestuurde Voordeelvorming

No Prompt Left Behind: Exploiting Zero-Variance Prompts in LLM Reinforcement Learning via Entropy-Guided Advantage Shaping

September 26, 2025
Auteurs: Thanh-Long V. Le, Myeongho Jeon, Kim Vu, Viet Lai, Eunho Yang
cs.AI

Samenvatting

Reinforcement Learning met Verifieerbare Beloningen (RLVR) is een krachtig raamwerk voor het verbeteren van de redeneervaardigheden van Large Language Models (LLM's). Huidige methoden zoals GRPO vertrouwen echter alleen op problemen waarbij de modelreacties op dezelfde invoer verschillen in correctheid, terwijl ze diegene negeren waarbij alle reacties dezelfde beloning ontvangen - zogenaamde nulvariantieprompts. In dit werk beargumenteren we dat dergelijke prompts niet nutteloos zijn, maar in feite zinvolle feedback kunnen bieden voor beleidsoptimalisatie. Hiertoe introduceren we RL met Nulvariantieprompts (RL-ZVP), een nieuw algoritme dat leersignalen haalt uit nulvariantieprompts. RL-ZVP beloont direct correctheid en bestraft fouten, zelfs zonder contrasterende reacties, en moduleert feedback met tokenniveau kenmerken om informatieve, genuanceerde signalen te behouden. Over zes wiskundige redeneerbenchmarks behaalt RL-ZVP significante verbeteringen van tot 8,61 punten in nauwkeurigheid en 7,77 punten in slaagpercentage ten opzichte van GRPO, terwijl het consistent beter presteert dan andere baseline-methoden die nulvariantieprompts filteren. Deze resultaten benadrukken het onbenutte potentieel van leren uit nulvariantieprompts in RLVR.
English
Reinforcement Learning with Verifiable Rewards (RLVR) is a powerful framework for improving the reasoning abilities of Large Language Models (LLMs). However, current methods such as GRPO rely only on problems where the model responses to the same input differ in correctness, while ignoring those where all responses receive the same reward - so-called zero-variance prompts. In this work, we argue that such prompts are not useless but can, in fact, provide meaningful feedback for policy optimization. To this end, we introduce RL with Zero-Variance Prompts (RL-ZVP), a novel algorithm that extract learning signals from zero-variance prompts. RL-ZVP directly rewards correctness and penalizes errors even without contrasting responses, modulating feedback with token-level characteristics to preserve informative, nuanced signals. Across six math reasoning benchmarks, RL-ZVP achieves significant improvements of up to 8.61 points in accuracy and 7.77 points in pass rate over GRPO, while consistently outperforming other baselines that filter out zero-variance prompts. These results highlight the untapped potential of learning from zero-variance prompts in RLVR.
PDF443September 29, 2025