ChatPaper.aiChatPaper

암묵적 이점 대칭성의 해부: GRPO가 탐험과 난이도 적응에 어려움을 겪는 이유

Unveiling Implicit Advantage Symmetry: Why GRPO Struggles with Exploration and Difficulty Adaptation

February 5, 2026
저자: Zhiqi Yu, Zhangquan Chen, Mengting Liu, Heye Zhang, Liangqiong Qu
cs.AI

초록

검증 가능한 보상을 활용한 강화 학습(RLVR), 특히 GRPO는 LLM 추론 능력을 이끌어내는 표준 방법론으로 자리 잡았습니다. 그러나 탐색 효율성과 난이도 적응 측면에서의 성능은 여전히 해결 과제로 남아 있습니다. 본 연구에서는 이러한 병목 현상이 그룹 상대적 이점 추정(GRAE)에 내재된 암묵적 이점 대칭성에서 비롯된다고 주장합니다. 이러한 대칭성은 두 가지 중요한 한계를 야기합니다: (i) 그룹 수준에서 정답과 오답 궤적 간의 엄격한 가중치 대칭성은 미추출된 행동 로짓을 변경하지 않아 새로운 정답 탐색을 저해합니다. (ii) 표본 수준에서 알고리즘은 중간 난이도 표본을 암묵적으로 우선시하여 난이도 집중의 비정상적(non-stationary) 요구를 인지하지 못합니다. 통제 실험을 통해 이 대칭적 특성이 최적이 아님을 규명하고 두 가지 핵심 통찰을 제시합니다: (i) 정답 궤적의 이점을 비대칭적으로 억제하면 필수적인 탐색이 촉진됩니다. (ii) 학습 효율은 단순한 표본을 우선 학습한 후 점차 복잡한 표본으로 전환하는 교과과정식(curriculum-like) 접근에서 극대화됩니다. 이러한 발견을 바탕으로 우리는 탐색 유인과 표본 난이도 집중을 동적으로 조절하는 비대칭 GRAE(A-GRAE)를 제안합니다. 7개 벤치마크에서의 실험 결과, A-GRAE가 LLM과 MLLM 모두에서 GRPO 및 그 변형 모델들의 성능을 지속적으로 향상시킴을 입증했습니다.
English
Reinforcement Learning with Verifiable Rewards (RLVR), particularly GRPO, has become the standard for eliciting LLM reasoning. However, its efficiency in exploration and difficulty adaptation remains an open challenge. In this work, we argue that these bottlenecks stem from an implicit advantage symmetry inherent in Group Relative Advantage Estimation (GRAE). This symmetry induces two critical limitations: (i) at the group level, strict symmetry in weights between correct and incorrect trajectories leaves unsampled action logits unchanged, thereby hindering exploration of novel correct solution. (ii) at the sample level, the algorithm implicitly prioritizes medium-difficulty samples, remaining agnostic to the non-stationary demands of difficulty focus. Through controlled experiments, we reveal that this symmetric property is sub-optimal, yielding two pivotal insights: (i) asymmetrically suppressing the advantages of correct trajectories encourages essential exploration. (ii) learning efficiency is maximized by a curriculum-like transition-prioritizing simpler samples initially before gradually shifting to complex ones. Motivated by these findings, we propose Asymmetric GRAE (A-GRAE), which dynamically modulates exploration incentives and sample-difficulty focus. Experiments across seven benchmarks demonstrate that A-GRAE consistently improves GRPO and its variants across both LLMs and MLLMs.
PDF101February 14, 2026