Não Desperdice Erros: Aproveitando Grupos Negativos de RL por meio de Reponderação de Confiança

Resumo

O aprendizado por reforço com recompensas verificáveis (RLVR) tornou-se uma abordagem padrão para melhorar modelos de linguagem de grande escala (LLMs) em tarefas de raciocínio, com a Otimização de Política Relativa de Grupo (GRPO) amplamente utilizada na prática. No entanto, a GRPO desperdiça uma quantidade significativa de recursos computacionais em grupos negativos: grupos em que nenhuma resposta amostrada está correta resultam em vantagem zero e, portanto, em nenhum gradiente. Questionamos se os grupos negativos podem ser aproveitados sem supervisão adicional. Partindo de um objetivo de máxima verossimilhança (MLE) na modelagem de recompensas, mostramos que o gradiente do MLE é equivalente a um gradiente de política para uma função de valor modificada. Essa função de valor adiciona uma penalidade ponderada por confiança em respostas incorretas, impondo penalidades maiores em erros mais confiantes. Referimo-nos a isso como Estimação de Verossimilhança com Amostras Negativas (LENS). A LENS modifica a GRPO para atribuir recompensas não nulas e dependentes da confiança a gerações incorretas, tornando os grupos negativos informativos e convertendo amostras anteriormente desperdiçadas em atualizações de gradiente úteis. No benchmark MATH com os modelos Llama-3.1-8B e Qwen-2.5-3B, a variante proposta supera consistentemente a linha de base da GRPO, com ganhos significativos em itens mais difíceis. Esses resultados demonstram uma maneira prática e fundamentada de "resgatar" grupos negativos, melhorando a eficiência e o desempenho no RLVR.

English

Reinforcement learning with verifiable rewards (RLVR) has become a standard recipe for improving large language models (LLMs) on reasoning tasks, with Group Relative Policy Optimization (GRPO) widely used in practice. Yet GRPO wastes substantial compute on negative groups: groups in which no sampled response is correct yield zero advantage and thus no gradient. We ask whether negative groups can be leveraged without extra supervision. Starting from a maximum-likelihood (MLE) objective in reward modeling, we show that the MLE gradient is equivalent to a policy gradient for a modified value function. This value function adds a confidence-weighted penalty on incorrect responses, imposing larger penalties on more confident mistakes. We refer to this as Likelihood Estimation with Negative Samples (LENS). LENS modifies GRPO to assign non-zero, confidence-dependent rewards to incorrect generations, making negative groups informative and converting previously wasted samples into useful gradient updates. On the MATH benchmark with Llama-3.1-8B and Qwen-2.5-3B, the proposed variant consistently outperforms GRPO baseline, with significant gains on harder items. These results demonstrate a principled and practical way to "rescue" negative groups, improving efficiency and performance in RLVR.

Não Desperdice Erros: Aproveitando Grupos Negativos de RL por meio de Reponderação de Confiança

Don't Waste Mistakes: Leveraging Negative RL-Groups via Confidence Reweighting

Resumo

Support