Não Desperdice Erros: Aproveitando Grupos Negativos de RL por meio de Reponderação de Confiança
Don't Waste Mistakes: Leveraging Negative RL-Groups via Confidence Reweighting
October 9, 2025
Autores: Yunzhen Feng, Parag Jain, Anthony Hartshorn, Yaqi Duan, Julia Kempe
cs.AI
Resumo
O aprendizado por reforço com recompensas verificáveis (RLVR) tornou-se uma abordagem padrão para melhorar modelos de linguagem de grande escala (LLMs) em tarefas de raciocínio, com a Otimização de Política Relativa de Grupo (GRPO) amplamente utilizada na prática. No entanto, a GRPO desperdiça uma quantidade significativa de recursos computacionais em grupos negativos: grupos em que nenhuma resposta amostrada está correta resultam em vantagem zero e, portanto, em nenhum gradiente. Questionamos se os grupos negativos podem ser aproveitados sem supervisão adicional. Partindo de um objetivo de máxima verossimilhança (MLE) na modelagem de recompensas, mostramos que o gradiente do MLE é equivalente a um gradiente de política para uma função de valor modificada. Essa função de valor adiciona uma penalidade ponderada por confiança em respostas incorretas, impondo penalidades maiores em erros mais confiantes. Referimo-nos a isso como Estimação de Verossimilhança com Amostras Negativas (LENS). A LENS modifica a GRPO para atribuir recompensas não nulas e dependentes da confiança a gerações incorretas, tornando os grupos negativos informativos e convertendo amostras anteriormente desperdiçadas em atualizações de gradiente úteis. No benchmark MATH com os modelos Llama-3.1-8B e Qwen-2.5-3B, a variante proposta supera consistentemente a linha de base da GRPO, com ganhos significativos em itens mais difíceis. Esses resultados demonstram uma maneira prática e fundamentada de "resgatar" grupos negativos, melhorando a eficiência e o desempenho no RLVR.
English
Reinforcement learning with verifiable rewards (RLVR) has become a standard
recipe for improving large language models (LLMs) on reasoning tasks, with
Group Relative Policy Optimization (GRPO) widely used in practice. Yet GRPO
wastes substantial compute on negative groups: groups in which no sampled
response is correct yield zero advantage and thus no gradient. We ask whether
negative groups can be leveraged without extra supervision. Starting from a
maximum-likelihood (MLE) objective in reward modeling, we show that the MLE
gradient is equivalent to a policy gradient for a modified value function. This
value function adds a confidence-weighted penalty on incorrect responses,
imposing larger penalties on more confident mistakes. We refer to this as
Likelihood Estimation with Negative Samples
(LENS). LENS modifies GRPO to assign non-zero, confidence-dependent
rewards to incorrect generations, making negative groups informative and
converting previously wasted samples into useful gradient updates. On the MATH
benchmark with Llama-3.1-8B and Qwen-2.5-3B, the proposed variant consistently
outperforms GRPO baseline, with significant gains on harder items. These
results demonstrate a principled and practical way to "rescue" negative groups,
improving efficiency and performance in RLVR.