ChatPaper.aiChatPaper

Ne gaspillez pas les erreurs : Exploiter les groupes RL négatifs via la pondération de la confiance

Don't Waste Mistakes: Leveraging Negative RL-Groups via Confidence Reweighting

October 9, 2025
papers.authors: Yunzhen Feng, Parag Jain, Anthony Hartshorn, Yaqi Duan, Julia Kempe
cs.AI

papers.abstract

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est devenu une méthode standard pour améliorer les modèles de langage de grande taille (LLMs) sur des tâches de raisonnement, avec l'Optimisation de Politique Relative par Groupe (GRPO) largement utilisée en pratique. Cependant, GRPO gaspille une quantité substantielle de calculs sur les groupes négatifs : les groupes dans lesquels aucune réponse échantillonnée n'est correcte produisent un avantage nul et donc aucun gradient. Nous nous demandons si les groupes négatifs peuvent être exploités sans supervision supplémentaire. En partant d'un objectif de maximum de vraisemblance (MLE) dans la modélisation des récompenses, nous montrons que le gradient MLE est équivalent à un gradient de politique pour une fonction de valeur modifiée. Cette fonction de valeur ajoute une pénalité pondérée par la confiance sur les réponses incorrectes, imposant des pénalités plus importantes sur les erreurs plus confiantes. Nous appelons cela l'Estimation de Vraisemblance avec Échantillons Négatifs (LENS). LENS modifie GRPO pour attribuer des récompenses non nulles et dépendantes de la confiance aux générations incorrectes, rendant les groupes négatifs informatifs et convertissant les échantillons précédemment gaspillés en mises à jour de gradient utiles. Sur le benchmark MATH avec Llama-3.1-8B et Qwen-2.5-3B, la variante proposée surpasse systématiquement la base de référence GRPO, avec des gains significatifs sur les éléments plus difficiles. Ces résultats démontrent une manière à la fois théorique et pratique de "sauver" les groupes négatifs, améliorant ainsi l'efficacité et la performance dans le RLVR.
English
Reinforcement learning with verifiable rewards (RLVR) has become a standard recipe for improving large language models (LLMs) on reasoning tasks, with Group Relative Policy Optimization (GRPO) widely used in practice. Yet GRPO wastes substantial compute on negative groups: groups in which no sampled response is correct yield zero advantage and thus no gradient. We ask whether negative groups can be leveraged without extra supervision. Starting from a maximum-likelihood (MLE) objective in reward modeling, we show that the MLE gradient is equivalent to a policy gradient for a modified value function. This value function adds a confidence-weighted penalty on incorrect responses, imposing larger penalties on more confident mistakes. We refer to this as Likelihood Estimation with Negative Samples (LENS). LENS modifies GRPO to assign non-zero, confidence-dependent rewards to incorrect generations, making negative groups informative and converting previously wasted samples into useful gradient updates. On the MATH benchmark with Llama-3.1-8B and Qwen-2.5-3B, the proposed variant consistently outperforms GRPO baseline, with significant gains on harder items. These results demonstrate a principled and practical way to "rescue" negative groups, improving efficiency and performance in RLVR.
PDF133October 13, 2025