Kein Prompt zurückgelassen: Nutzung von Null-Varianz-Prompts in der Verstärkungslernen von LLM durch entropiegesteuerte Vorteilsformung
No Prompt Left Behind: Exploiting Zero-Variance Prompts in LLM Reinforcement Learning via Entropy-Guided Advantage Shaping
September 26, 2025
papers.authors: Thanh-Long V. Le, Myeongho Jeon, Kim Vu, Viet Lai, Eunho Yang
cs.AI
papers.abstract
Reinforcement Learning mit überprüfbaren Belohnungen (RLVR) ist ein leistungsstarkes Framework zur Verbesserung der Fähigkeiten von Large Language Models (LLMs) im Bereich des logischen Denkens. Allerdings stützen sich aktuelle Methoden wie GRPO nur auf Probleme, bei denen die Modellantworten auf denselben Eingang in ihrer Korrektheit variieren, während sie solche ignorieren, bei denen alle Antworten dieselbe Belohnung erhalten – sogenannte Null-Varianz-Prompts. In dieser Arbeit argumentieren wir, dass solche Prompts nicht nutzlos sind, sondern tatsächlich sinnvolles Feedback für die Politikoptimierung liefern können. Zu diesem Zweck führen wir RL mit Null-Varianz-Prompts (RL-ZVP) ein, einen neuartigen Algorithmus, der Lernsignale aus Null-Varianz-Prompts extrahiert. RL-ZVP belohnt Korrektheit direkt und bestraft Fehler, selbst ohne kontrastierende Antworten, und moduliert das Feedback mit Token-spezifischen Eigenschaften, um informative, differenzierte Signale zu bewahren. Über sechs mathematische Denkbenchmarks hinweg erzielt RL-ZVP signifikante Verbesserungen von bis zu 8,61 Punkten in der Genauigkeit und 7,77 Punkten in der Erfolgsquote gegenüber GRPO, während es andere Baseline-Methoden, die Null-Varianz-Prompts aussortieren, konsequent übertrifft. Diese Ergebnisse unterstreichen das ungenutzte Potenzial des Lernens aus Null-Varianz-Prompts in RLVR.
English
Reinforcement Learning with Verifiable Rewards (RLVR) is a powerful framework
for improving the reasoning abilities of Large Language Models (LLMs). However,
current methods such as GRPO rely only on problems where the model responses to
the same input differ in correctness, while ignoring those where all responses
receive the same reward - so-called zero-variance prompts. In this work, we
argue that such prompts are not useless but can, in fact, provide meaningful
feedback for policy optimization. To this end, we introduce RL with
Zero-Variance Prompts (RL-ZVP), a novel algorithm that extract learning signals
from zero-variance prompts. RL-ZVP directly rewards correctness and penalizes
errors even without contrasting responses, modulating feedback with token-level
characteristics to preserve informative, nuanced signals. Across six math
reasoning benchmarks, RL-ZVP achieves significant improvements of up to 8.61
points in accuracy and 7.77 points in pass rate over GRPO, while consistently
outperforming other baselines that filter out zero-variance prompts. These
results highlight the untapped potential of learning from zero-variance prompts
in RLVR.