ChatPaper.aiChatPaper

귀하의 집단 상대적 이점은 편향되어 있습니다

Your Group-Relative Advantage Is Biased

January 13, 2026
저자: Fengkai Yang, Zherui Chen, Xiaohan Wang, Xiaodong Lu, Jiajun Chai, Guojun Yin, Wei Lin, Shuai Ma, Fuzhen Zhuang, Deqing Wang, Yaodong Yang, Jianxin Li, Yikun Ban
cs.AI

초록

검증자 보상 강화학습(RLVR)은 추론 과제에 대한 대규모 언어 모델의 사후 훈련에 널리 사용되는 접근법으로 부여되며, GRPO 및 그 변형들과 같은 그룹 기반 방법들이 광범위하게 채택되고 있습니다. 이러한 방법들은 학습된 비평가(critic)를 회피하기 위해 그룹 상대적 어드밴티지 추정에 의존하지만, 그 이론적 특성은 여전히 제대로 이해되지 못하고 있습니다. 본 연구에서 우리는 그룹 기반 RL의 근본적인 문제를 발견했습니다: 그룹 상대적 어드밴티지 추정기는 본질적으로 실제(기대) 어드밴티지 대비 편향되어 있습니다. 우리는 이 추정기가 어려운 프롬프트에 대해서는 어드밴티지를 체계적으로 과소평가하고 쉬운 프롬프트에 대해서는 과대평가하여 불균형한 탐색과 활용으로 이어진다는 것을 보여주는 첫 번째 이론적 분석을 제공합니다. 이 문제를 해결하기 위해, 우리는 진화하는 난이도 기준점과 훈련 역학을 기반으로 어드밴티지 추정치를 조정하는 적응적 재가중 방식인 History-Aware Adaptive Difficulty Weighting (HA-DW)을 제안합니다. 다섯 가지 수학적 추론 벤치마크에 대한 이론적 분석과 실험 모두 HA-DW가 GRPO 및 그 변형들에 통합될 때 성능을 지속적으로 향상시킴을 입증합니다. 우리의 결과는 편향된 어드밴티지 추정을 수정하는 것이 강건하고 효율적인 RLVR 훈련에 중요함을 시사합니다.
English
Reinforcement Learning from Verifier Rewards (RLVR) has emerged as a widely used approach for post-training large language models on reasoning tasks, with group-based methods such as GRPO and its variants gaining broad adoption. These methods rely on group-relative advantage estimation to avoid learned critics, yet its theoretical properties remain poorly understood. In this work, we uncover a fundamental issue of group-based RL: the group-relative advantage estimator is inherently biased relative to the true (expected) advantage. We provide the first theoretical analysis showing that it systematically underestimates advantages for hard prompts and overestimates them for easy prompts, leading to imbalanced exploration and exploitation. To address this issue, we propose History-Aware Adaptive Difficulty Weighting (HA-DW), an adaptive reweighting scheme that adjusts advantage estimates based on an evolving difficulty anchor and training dynamics. Both theoretical analysis and experiments on five mathematical reasoning benchmarks demonstrate that HA-DW consistently improves performance when integrated into GRPO and its variants. Our results suggest that correcting biased advantage estimation is critical for robust and efficient RLVR training.
PDF955January 20, 2026