Non Sprecare gli Errori: Sfruttare i Gruppi RL-Negativi tramite Ripesatura della Fiducia

Abstract

L'apprendimento per rinforzo con ricompense verificabili (RLVR) è diventato un approccio standard per migliorare i grandi modelli linguistici (LLM) nei compiti di ragionamento, con l'Ottimizzazione Relativa delle Politiche di Gruppo (GRPO) ampiamente utilizzata nella pratica. Tuttavia, GRPO spreca una quantità significativa di risorse computazionali sui gruppi negativi: gruppi in cui nessuna risposta campionata è corretta producono un vantaggio nullo e quindi nessun gradiente. Ci chiediamo se i gruppi negativi possano essere sfruttati senza supervisione aggiuntiva. Partendo da un obiettivo di massima verosimiglianza (MLE) nella modellazione delle ricompense, dimostriamo che il gradiente MLE è equivalente a un gradiente di politica per una funzione di valore modificata. Questa funzione di valore aggiunge una penalità ponderata dalla confidenza sulle risposte errate, imponendo penalità maggiori sugli errori più confidenti. Ci riferiamo a questo approccio come Stima della Verosimiglianza con Campioni Negativi (LENS). LENS modifica GRPO per assegnare ricompense non nulle e dipendenti dalla confidenza alle generazioni errate, rendendo informativi i gruppi negativi e convertendo i campioni precedentemente sprecati in aggiornamenti di gradiente utili. Sul benchmark MATH con Llama-3.1-8B e Qwen-2.5-3B, la variante proposta supera costantemente la baseline GRPO, con guadagni significativi sugli elementi più difficili. Questi risultati dimostrano un modo principiato e pratico per "recuperare" i gruppi negativi, migliorando l'efficienza e le prestazioni in RLVR.

English

Reinforcement learning with verifiable rewards (RLVR) has become a standard recipe for improving large language models (LLMs) on reasoning tasks, with Group Relative Policy Optimization (GRPO) widely used in practice. Yet GRPO wastes substantial compute on negative groups: groups in which no sampled response is correct yield zero advantage and thus no gradient. We ask whether negative groups can be leveraged without extra supervision. Starting from a maximum-likelihood (MLE) objective in reward modeling, we show that the MLE gradient is equivalent to a policy gradient for a modified value function. This value function adds a confidence-weighted penalty on incorrect responses, imposing larger penalties on more confident mistakes. We refer to this as Likelihood Estimation with Negative Samples (LENS). LENS modifies GRPO to assign non-zero, confidence-dependent rewards to incorrect generations, making negative groups informative and converting previously wasted samples into useful gradient updates. On the MATH benchmark with Llama-3.1-8B and Qwen-2.5-3B, the proposed variant consistently outperforms GRPO baseline, with significant gains on harder items. These results demonstrate a principled and practical way to "rescue" negative groups, improving efficiency and performance in RLVR.

Non Sprecare gli Errori: Sfruttare i Gruppi RL-Negativi tramite Ripesatura della Fiducia

Don't Waste Mistakes: Leveraging Negative RL-Groups via Confidence Reweighting

Abstract

Support