ChatPaper.aiChatPaper

暗黙の優位性対称性の解明:GRPOが探索と難易度適応に苦戦する理由

Unveiling Implicit Advantage Symmetry: Why GRPO Struggles with Exploration and Difficulty Adaptation

February 5, 2026
著者: Zhiqi Yu, Zhangquan Chen, Mengting Liu, Heye Zhang, Liangqiong Qu
cs.AI

要旨

検証可能な報酬を用いた強化学習(RLVR)、特にGRPOは、大規模言語モデルの推論能力を引き出す標準的手法となっている。しかし、その探索効率と難易度適応性に関する課題は未解決のままであった。本研究では、これらのボトルネックが、グループ相対アドバンテージ推定(GRAE)に内在する暗黙的なアドバンテージ対称性に起因することを論じる。この対称性は二つの重大な限界を生み出す:(i)グループレベルでは、正解軌跡と不正解軌跡間の重みの厳密な対称性により、未サンプリングの行動ロジットが変化せず、新規正解の探索が阻害される。(ii)サンプルレベルでは、アルゴリズムは中程度の難易度サンプルを暗黙的に優先し、難易度焦点の非定常的な要求を認識しない。制御実験を通じて、この対称性が最適でないことを明らかにし、二つの重要な知見を得た:(i)正解軌跡のアドバンテージを非対称的に抑制することが本質的な探索を促進する。(ii)学習効率は、単純なサンプルから複雑なサンプルへ徐々に移行するカリキュラム学習的な遷移により最大化される。これらの発見に基づき、探索誘因とサンプル難易度焦点を動的に調整する非対称GRAE(A-GRAE)を提案する。7つのベンチマークにおける実験により、A-GRAEがLLMおよびMLLMの双方において、GRPOとその変種を一貫して改善することを実証した。
English
Reinforcement Learning with Verifiable Rewards (RLVR), particularly GRPO, has become the standard for eliciting LLM reasoning. However, its efficiency in exploration and difficulty adaptation remains an open challenge. In this work, we argue that these bottlenecks stem from an implicit advantage symmetry inherent in Group Relative Advantage Estimation (GRAE). This symmetry induces two critical limitations: (i) at the group level, strict symmetry in weights between correct and incorrect trajectories leaves unsampled action logits unchanged, thereby hindering exploration of novel correct solution. (ii) at the sample level, the algorithm implicitly prioritizes medium-difficulty samples, remaining agnostic to the non-stationary demands of difficulty focus. Through controlled experiments, we reveal that this symmetric property is sub-optimal, yielding two pivotal insights: (i) asymmetrically suppressing the advantages of correct trajectories encourages essential exploration. (ii) learning efficiency is maximized by a curriculum-like transition-prioritizing simpler samples initially before gradually shifting to complex ones. Motivated by these findings, we propose Asymmetric GRAE (A-GRAE), which dynamically modulates exploration incentives and sample-difficulty focus. Experiments across seven benchmarks demonstrate that A-GRAE consistently improves GRPO and its variants across both LLMs and MLLMs.
PDF101February 14, 2026