探索か搾取か:クリッピング、エントロピー、疑似報酬によるRLVRの再考
Exploration v.s. Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious Reward
December 18, 2025
著者: Peter Chen, Xiaopeng Li, Ziniu Li, Wotao Yin, Xi Chen, Tianyi Lin
cs.AI
要旨
本論文は、大規模言語モデル(LLM)の推論能力向上を目指す枠組みである検証可能報酬による強化学習(RLVR)における探索と利用のトレードオフを検証する。最近の研究は、RLVRが一見矛盾する二つのメカニズムを通じてLLMに強力な数学的推論能力を引き出す可能性を示唆している。すなわち、正解とは無関係な結果を報酬付与することで利用を抑制する**虚偽報酬**と、モデルをより確信度の高い決定的な出力へ向かわせることで探索を抑制する**エントロピー最小化**である。ここには逆説的な力学が存在する:利用の抑制と探索の抑制の双方が推論性能を向上させる一方、これらの効果を統合的に説明する基本原理は未解明のままである。我々は以下の二つの根本的問いに焦点を当てる:(i) 方策エントロピーが性能とどのように関連するか、(ii) 虚偽報酬が、クリッピングバイアスとモデル汚染の相互作用を介して利益をもたらすか否か。結果として、虚偽報酬下でのクリッピングバイアスは方策エントロピーを減少させ、より確信的で決定的な出力を導くが、エントロピー最小化のみでは改善に不十分であることが示された。さらに我々は、虚偽報酬が汚染設定を超えて性能を向上させ得る理由を説明する**報酬ミスアライメントモデル**を提案する。本研究の知見は、虚偽報酬の利益をもたらす背後メカニズムを明らかにし、より効果的なRLVR訓練のための指針を提供する。
English
This paper examines the exploration-exploitation trade-off in reinforcement learning with verifiable rewards (RLVR), a framework for improving the reasoning of Large Language Models (LLMs). Recent studies suggest that RLVR can elicit strong mathematical reasoning in LLMs through two seemingly paradoxical mechanisms: spurious rewards, which suppress exploitation by rewarding outcomes unrelated to the ground truth, and entropy minimization, which suppresses exploration by pushing the model toward more confident and deterministic outputs, highlighting a puzzling dynamic: both discouraging exploitation and discouraging exploration improve reasoning performance, yet the underlying principles that reconcile these effects remain poorly understood. We focus on two fundamental questions: (i) how policy entropy relates to performance, and (ii) whether spurious rewards yield gains, potentially through the interplay of clipping bias and model contamination. Our results show that clipping bias under spurious rewards reduces policy entropy, leading to more confident and deterministic outputs, while entropy minimization alone is insufficient for improvement. We further propose a reward-misalignment model explaining why spurious rewards can enhance performance beyond contaminated settings. Our findings clarify the mechanisms behind spurious-reward benefits and provide principles for more effective RLVR training.