過ちを無駄にしない:信頼度再重み付けによる負のRLグループの活用
Don't Waste Mistakes: Leveraging Negative RL-Groups via Confidence Reweighting
October 9, 2025
著者: Yunzhen Feng, Parag Jain, Anthony Hartshorn, Yaqi Duan, Julia Kempe
cs.AI
要旨
検証可能な報酬を伴う強化学習(RLVR)は、推論タスクにおける大規模言語モデル(LLM)の改善のための標準的な手法となり、グループ相対ポリシー最適化(GRPO)が広く実践されている。しかし、GRPOは負のグループにおいて大幅な計算リソースを浪費している。負のグループとは、サンプリングされた応答が正解でないグループであり、これらはゼロのアドバンテージをもたらし、勾配を生成しない。我々は、追加の監督なしに負のグループを活用できるかどうかを問う。報酬モデリングにおける最尤推定(MLE)目的関数から出発し、MLE勾配が修正された価値関数に対するポリシー勾配と等価であることを示す。この価値関数は、誤った応答に対して信頼度に基づくペナルティを追加し、より自信のある誤りに対してより大きなペナルティを課す。これを「負のサンプルを伴う尤度推定」(LENS)と呼ぶ。LENSはGRPOを修正し、誤った生成に対して非ゼロの信頼度依存の報酬を割り当て、負のグループを有益なものにし、以前は無駄にされていたサンプルを有用な勾配更新に変換する。Llama-3.1-8BとQwen-2.5-3Bを用いたMATHベンチマークにおいて、提案されたバリアントはGRPOベースラインを一貫して上回り、特に難しい項目において顕著な向上を示した。これらの結果は、負のグループを「救済」するための原理的かつ実践的な方法を示しており、RLVRにおける効率と性能の向上を実証している。
English
Reinforcement learning with verifiable rewards (RLVR) has become a standard
recipe for improving large language models (LLMs) on reasoning tasks, with
Group Relative Policy Optimization (GRPO) widely used in practice. Yet GRPO
wastes substantial compute on negative groups: groups in which no sampled
response is correct yield zero advantage and thus no gradient. We ask whether
negative groups can be leveraged without extra supervision. Starting from a
maximum-likelihood (MLE) objective in reward modeling, we show that the MLE
gradient is equivalent to a policy gradient for a modified value function. This
value function adds a confidence-weighted penalty on incorrect responses,
imposing larger penalties on more confident mistakes. We refer to this as
Likelihood Estimation with Negative Samples
(LENS). LENS modifies GRPO to assign non-zero, confidence-dependent
rewards to incorrect generations, making negative groups informative and
converting previously wasted samples into useful gradient updates. On the MATH
benchmark with Llama-3.1-8B and Qwen-2.5-3B, the proposed variant consistently
outperforms GRPO baseline, with significant gains on harder items. These
results demonstrate a principled and practical way to "rescue" negative groups,
improving efficiency and performance in RLVR.