Nutze Fehler nicht vergeblich: Nutzung negativer RL-Gruppen durch Konfidenz-Neugewichtung
Don't Waste Mistakes: Leveraging Negative RL-Groups via Confidence Reweighting
October 9, 2025
papers.authors: Yunzhen Feng, Parag Jain, Anthony Hartshorn, Yaqi Duan, Julia Kempe
cs.AI
papers.abstract
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich zu einer Standardmethode entwickelt, um große Sprachmodelle (LLMs) bei Aufgaben des logischen Denkens zu verbessern, wobei die Group Relative Policy Optimization (GRPO) in der Praxis weit verbreitet ist. Dennoch verschwendet GRPO erhebliche Rechenressourcen auf negative Gruppen: Gruppen, in denen keine der gesampelten Antworten korrekt ist, liefern keinen Vorteil und somit auch keinen Gradienten. Wir fragen, ob negative Gruppen ohne zusätzliche Überwachung genutzt werden können. Ausgehend von einem Maximum-Likelihood (MLE)-Ziel in der Belohnungsmodellierung zeigen wir, dass der MLE-Gradient einem Policy-Gradienten für eine modifizierte Wertfunktion entspricht. Diese Wertfunktion fügt eine konfidenzgewichtete Strafe für falsche Antworten hinzu, wobei sicherere Fehler stärker bestraft werden. Wir bezeichnen dies als Likelihood Estimation with Negative Samples (LENS). LENS modifiziert GRPO, um falschen Generierungen nicht-null, konfidenzabhängige Belohnungen zuzuweisen, wodurch negative Gruppen informativ werden und zuvor verschwendete Samples in nützliche Gradientenupdates umgewandelt werden. Auf dem MATH-Benchmark mit Llama-3.1-8B und Qwen-2.5-3B übertrifft die vorgeschlagene Variante durchgehend die GRPO-Baseline, mit signifikanten Verbesserungen bei schwierigeren Aufgaben. Diese Ergebnisse demonstrieren einen prinzipiellen und praktischen Weg, um negative Gruppen zu „retten“, wodurch Effizienz und Leistung in RLVR verbessert werden.
English
Reinforcement learning with verifiable rewards (RLVR) has become a standard
recipe for improving large language models (LLMs) on reasoning tasks, with
Group Relative Policy Optimization (GRPO) widely used in practice. Yet GRPO
wastes substantial compute on negative groups: groups in which no sampled
response is correct yield zero advantage and thus no gradient. We ask whether
negative groups can be leveraged without extra supervision. Starting from a
maximum-likelihood (MLE) objective in reward modeling, we show that the MLE
gradient is equivalent to a policy gradient for a modified value function. This
value function adds a confidence-weighted penalty on incorrect responses,
imposing larger penalties on more confident mistakes. We refer to this as
Likelihood Estimation with Negative Samples
(LENS). LENS modifies GRPO to assign non-zero, confidence-dependent
rewards to incorrect generations, making negative groups informative and
converting previously wasted samples into useful gradient updates. On the MATH
benchmark with Llama-3.1-8B and Qwen-2.5-3B, the proposed variant consistently
outperforms GRPO baseline, with significant gains on harder items. These
results demonstrate a principled and practical way to "rescue" negative groups,
improving efficiency and performance in RLVR.