ChatPaper.aiChatPaper

あなたの集団相対的優位性は偏っている

Your Group-Relative Advantage Is Biased

January 13, 2026
著者: Fengkai Yang, Zherui Chen, Xiaohan Wang, Xiaodong Lu, Jiajun Chai, Guojun Yin, Wei Lin, Shuai Ma, Fuzhen Zhuang, Deqing Wang, Yaodong Yang, Jianxin Li, Yikun Ban
cs.AI

要旨

検証者報酬からの強化学習(RLVR)は、推論タスクにおける大規模言語モデルの学習後調整手法として広く用いられるようになり、GRPOおよびその派生手法に代表されるグループベースの手法が広く採用されている。これらの手法は学習済み批評家を回避するためにグループ相対的なアドバンテージ推定に依存しているが、その理論的特性は十分に解明されていない。 本研究では、グループベースRLの根本的な問題を明らかにする:グループ相対アドバンテージ推定量は、真の(期待)アドバンテージに対して本質的にバイアスを持つことを理論的に示す。当該推定量が困難なプロンプトではアドバンテージを系統的に過小評価し、容易なプロンプトでは過大評価するため、探索と利用の不均衡を引き起こすことを初めて理論分析により証明する。この問題を解決するため、我々は履歴認識適応難易度重み付け(HA-DW)を提案する。これは、進化する難易度アンカーと学習動態に基づいてアドバンテージ推定値を調整する適応的重み付け手法である。5つの数学的推論ベンチマークにおける理論分析と実験の両方において、HA-DWがGRPOおよびその派生手法に統合された場合、一貫して性能向上をもたらすことを実証する。我々の結果は、バイアスされたアドバンテージ推定の補正が、堅牢かつ効率的なRLVR訓練にとって重要であることを示唆している。
English
Reinforcement Learning from Verifier Rewards (RLVR) has emerged as a widely used approach for post-training large language models on reasoning tasks, with group-based methods such as GRPO and its variants gaining broad adoption. These methods rely on group-relative advantage estimation to avoid learned critics, yet its theoretical properties remain poorly understood. In this work, we uncover a fundamental issue of group-based RL: the group-relative advantage estimator is inherently biased relative to the true (expected) advantage. We provide the first theoretical analysis showing that it systematically underestimates advantages for hard prompts and overestimates them for easy prompts, leading to imbalanced exploration and exploitation. To address this issue, we propose History-Aware Adaptive Difficulty Weighting (HA-DW), an adaptive reweighting scheme that adjusts advantage estimates based on an evolving difficulty anchor and training dynamics. Both theoretical analysis and experiments on five mathematical reasoning benchmarks demonstrate that HA-DW consistently improves performance when integrated into GRPO and its variants. Our results suggest that correcting biased advantage estimation is critical for robust and efficient RLVR training.
PDF955January 20, 2026