ChatPaper.aiChatPaper

Verspil Fouten Niet: Benut Negatieve RL-Groepen via Vertrouwensherweging

Don't Waste Mistakes: Leveraging Negative RL-Groups via Confidence Reweighting

October 9, 2025
Auteurs: Yunzhen Feng, Parag Jain, Anthony Hartshorn, Yaqi Duan, Julia Kempe
cs.AI

Samenvatting

Reinforcement learning met verifieerbare beloningen (RLVR) is een standaardaanpak geworden voor het verbeteren van grote taalmodelen (LLMs) bij redeneertaken, waarbij Group Relative Policy Optimization (GRPO) veelvuldig in de praktijk wordt gebruikt. Toch verspilt GRPO aanzienlijke rekenkracht aan negatieve groepen: groepen waarin geen enkele bemonsterde reactie correct is, leveren geen voordeel op en dus ook geen gradient. We onderzoeken of negatieve groepen benut kunnen worden zonder extra supervisie. Uitgaande van een maximum-likelihood (MLE) doelstelling in beloningsmodellering, laten we zien dat de MLE-gradient equivalent is aan een beleidsgradient voor een aangepaste waardefunctie. Deze waardefunctie voegt een vertrouwensgewogen straf toe op incorrecte reacties, waarbij meer zelfverzekerde fouten zwaardere straffen krijgen. We noemen dit Likelihood Estimation with Negative Samples (LENS). LENS past GRPO aan om niet-nul, vertrouwensafhankelijke beloningen toe te kennen aan incorrecte generaties, waardoor negatieve groepen informatief worden en eerder verspilde samples worden omgezet in nuttige gradientupdates. Op de MATH-benchmark met Llama-3.1-8B en Qwen-2.5-3B presteert de voorgestelde variant consistent beter dan de GRPO-basislijn, met aanzienlijke verbeteringen op moeilijkere items. Deze resultaten tonen een principiële en praktische manier aan om negatieve groepen te "redden", wat de efficiëntie en prestaties in RLVR verbetert.
English
Reinforcement learning with verifiable rewards (RLVR) has become a standard recipe for improving large language models (LLMs) on reasoning tasks, with Group Relative Policy Optimization (GRPO) widely used in practice. Yet GRPO wastes substantial compute on negative groups: groups in which no sampled response is correct yield zero advantage and thus no gradient. We ask whether negative groups can be leveraged without extra supervision. Starting from a maximum-likelihood (MLE) objective in reward modeling, we show that the MLE gradient is equivalent to a policy gradient for a modified value function. This value function adds a confidence-weighted penalty on incorrect responses, imposing larger penalties on more confident mistakes. We refer to this as Likelihood Estimation with Negative Samples (LENS). LENS modifies GRPO to assign non-zero, confidence-dependent rewards to incorrect generations, making negative groups informative and converting previously wasted samples into useful gradient updates. On the MATH benchmark with Llama-3.1-8B and Qwen-2.5-3B, the proposed variant consistently outperforms GRPO baseline, with significant gains on harder items. These results demonstrate a principled and practical way to "rescue" negative groups, improving efficiency and performance in RLVR.
PDF133October 13, 2025