ChatPaper.aiChatPaper

Не упускайте ошибки: использование негативных RL-групп через перевзвешивание на основе уверенности

Don't Waste Mistakes: Leveraging Negative RL-Groups via Confidence Reweighting

October 9, 2025
Авторы: Yunzhen Feng, Parag Jain, Anthony Hartshorn, Yaqi Duan, Julia Kempe
cs.AI

Аннотация

Обучение с подкреплением с верифицируемыми наградами (RLVR) стало стандартным подходом для улучшения больших языковых моделей (LLM) в задачах логического рассуждения, при этом метод Group Relative Policy Optimization (GRPO) широко используется на практике. Однако GRPO тратит значительные вычислительные ресурсы на негативные группы: группы, в которых ни один из сэмплированных ответов не является правильным, дают нулевое преимущество и, следовательно, не формируют градиент. Мы исследуем, можно ли использовать негативные группы без дополнительного контроля. Исходя из задачи максимизации правдоподобия (MLE) в моделировании наград, мы показываем, что градиент MLE эквивалентен градиенту политики для модифицированной функции ценности. Эта функция ценности добавляет штраф, взвешенный по уверенности, на неправильные ответы, накладывая большие штрафы на более уверенные ошибки. Мы называем это Likelihood Estimation with Negative Samples (LENS). LENS модифицирует GRPO, присваивая ненулевые, зависящие от уверенности награды неправильным генерациям, делая негативные группы информативными и превращая ранее бесполезные сэмплы в полезные обновления градиента. На бенчмарке MATH с моделями Llama-3.1-8B и Qwen-2.5-3B предложенный вариант стабильно превосходит базовый GRPO, демонстрируя значительные улучшения на более сложных задачах. Эти результаты показывают принципиальный и практический способ "спасения" негативных групп, повышая эффективность и производительность в RLVR.
English
Reinforcement learning with verifiable rewards (RLVR) has become a standard recipe for improving large language models (LLMs) on reasoning tasks, with Group Relative Policy Optimization (GRPO) widely used in practice. Yet GRPO wastes substantial compute on negative groups: groups in which no sampled response is correct yield zero advantage and thus no gradient. We ask whether negative groups can be leveraged without extra supervision. Starting from a maximum-likelihood (MLE) objective in reward modeling, we show that the MLE gradient is equivalent to a policy gradient for a modified value function. This value function adds a confidence-weighted penalty on incorrect responses, imposing larger penalties on more confident mistakes. We refer to this as Likelihood Estimation with Negative Samples (LENS). LENS modifies GRPO to assign non-zero, confidence-dependent rewards to incorrect generations, making negative groups informative and converting previously wasted samples into useful gradient updates. On the MATH benchmark with Llama-3.1-8B and Qwen-2.5-3B, the proposed variant consistently outperforms GRPO baseline, with significant gains on harder items. These results demonstrate a principled and practical way to "rescue" negative groups, improving efficiency and performance in RLVR.
PDF133October 13, 2025