실수를 헛되이 하지 말라: 신뢰도 재가중을 통한 부정적 RL-그룹 활용
Don't Waste Mistakes: Leveraging Negative RL-Groups via Confidence Reweighting
October 9, 2025
저자: Yunzhen Feng, Parag Jain, Anthony Hartshorn, Yaqi Duan, Julia Kempe
cs.AI
초록
검증 가능한 보상을 활용한 강화 학습(RLVR)은 대규모 언어 모델(LLM)의 추론 과제 개선을 위한 표준 방법론으로 자리 잡았으며, 그룹 상대 정책 최적화(GRPO)가 실제로 널리 사용되고 있습니다. 그러나 GRPO는 부정적 그룹(negative groups)에서 상당한 계산 자원을 낭비합니다: 어떤 샘플 응답도 정답이 아닌 그룹은 이점이 없어 그래디언트가 발생하지 않습니다. 우리는 추가 감독 없이도 이러한 부정적 그룹을 활용할 수 있는지 질문합니다. 보상 모델링에서 최대 가능도(MLE) 목적함수로부터 시작하여, MLE 그래디언트가 수정된 가치 함수에 대한 정책 그래디언트와 동일함을 보입니다. 이 가치 함수는 잘못된 응답에 대해 신뢰도 가중치를 적용한 패널티를 추가하며, 더 확신에 찬 오류에 더 큰 패널티를 부과합니다. 이를 부정적 샘플을 활용한 가능도 추정(LENS)이라고 명명합니다. LENS는 GRPO를 수정하여 잘못된 생성물에 대해 신뢰도에 의존하는 0이 아닌 보상을 할당함으로써, 부정적 그룹을 정보적으로 만들고 이전에 낭비되던 샘플을 유용한 그래디언트 업데이트로 전환합니다. Llama-3.1-8B와 Qwen-2.5-3B 모델을 사용한 MATH 벤치마크에서, 제안된 변형은 GRPO 기준선을 꾸준히 능가하며, 특히 더 어려운 항목에서 상당한 성능 향상을 보였습니다. 이러한 결과는 부정적 그룹을 "구제"하는 원칙적이고 실용적인 방법을 보여주며, RLVR의 효율성과 성능을 개선합니다.
English
Reinforcement learning with verifiable rewards (RLVR) has become a standard
recipe for improving large language models (LLMs) on reasoning tasks, with
Group Relative Policy Optimization (GRPO) widely used in practice. Yet GRPO
wastes substantial compute on negative groups: groups in which no sampled
response is correct yield zero advantage and thus no gradient. We ask whether
negative groups can be leveraged without extra supervision. Starting from a
maximum-likelihood (MLE) objective in reward modeling, we show that the MLE
gradient is equivalent to a policy gradient for a modified value function. This
value function adds a confidence-weighted penalty on incorrect responses,
imposing larger penalties on more confident mistakes. We refer to this as
Likelihood Estimation with Negative Samples
(LENS). LENS modifies GRPO to assign non-zero, confidence-dependent
rewards to incorrect generations, making negative groups informative and
converting previously wasted samples into useful gradient updates. On the MATH
benchmark with Llama-3.1-8B and Qwen-2.5-3B, the proposed variant consistently
outperforms GRPO baseline, with significant gains on harder items. These
results demonstrate a principled and practical way to "rescue" negative groups,
improving efficiency and performance in RLVR.