Non Sprecare gli Errori: Sfruttare i Gruppi RL-Negativi tramite Ripesatura della Fiducia
Don't Waste Mistakes: Leveraging Negative RL-Groups via Confidence Reweighting
October 9, 2025
Autori: Yunzhen Feng, Parag Jain, Anthony Hartshorn, Yaqi Duan, Julia Kempe
cs.AI
Abstract
L'apprendimento per rinforzo con ricompense verificabili (RLVR) è diventato un approccio standard per migliorare i grandi modelli linguistici (LLM) nei compiti di ragionamento, con l'Ottimizzazione Relativa delle Politiche di Gruppo (GRPO) ampiamente utilizzata nella pratica. Tuttavia, GRPO spreca una quantità significativa di risorse computazionali sui gruppi negativi: gruppi in cui nessuna risposta campionata è corretta producono un vantaggio nullo e quindi nessun gradiente. Ci chiediamo se i gruppi negativi possano essere sfruttati senza supervisione aggiuntiva. Partendo da un obiettivo di massima verosimiglianza (MLE) nella modellazione delle ricompense, dimostriamo che il gradiente MLE è equivalente a un gradiente di politica per una funzione di valore modificata. Questa funzione di valore aggiunge una penalità ponderata dalla confidenza sulle risposte errate, imponendo penalità maggiori sugli errori più confidenti. Ci riferiamo a questo approccio come Stima della Verosimiglianza con Campioni Negativi (LENS). LENS modifica GRPO per assegnare ricompense non nulle e dipendenti dalla confidenza alle generazioni errate, rendendo informativi i gruppi negativi e convertendo i campioni precedentemente sprecati in aggiornamenti di gradiente utili. Sul benchmark MATH con Llama-3.1-8B e Qwen-2.5-3B, la variante proposta supera costantemente la baseline GRPO, con guadagni significativi sugli elementi più difficili. Questi risultati dimostrano un modo principiato e pratico per "recuperare" i gruppi negativi, migliorando l'efficienza e le prestazioni in RLVR.
English
Reinforcement learning with verifiable rewards (RLVR) has become a standard
recipe for improving large language models (LLMs) on reasoning tasks, with
Group Relative Policy Optimization (GRPO) widely used in practice. Yet GRPO
wastes substantial compute on negative groups: groups in which no sampled
response is correct yield zero advantage and thus no gradient. We ask whether
negative groups can be leveraged without extra supervision. Starting from a
maximum-likelihood (MLE) objective in reward modeling, we show that the MLE
gradient is equivalent to a policy gradient for a modified value function. This
value function adds a confidence-weighted penalty on incorrect responses,
imposing larger penalties on more confident mistakes. We refer to this as
Likelihood Estimation with Negative Samples
(LENS). LENS modifies GRPO to assign non-zero, confidence-dependent
rewards to incorrect generations, making negative groups informative and
converting previously wasted samples into useful gradient updates. On the MATH
benchmark with Llama-3.1-8B and Qwen-2.5-3B, the proposed variant consistently
outperforms GRPO baseline, with significant gains on harder items. These
results demonstrate a principled and practical way to "rescue" negative groups,
improving efficiency and performance in RLVR.