ChatPaper.aiChatPaper

Ihr gruppenrelativer Vorteil ist voreingenommen.

Your Group-Relative Advantage Is Biased

January 13, 2026
papers.authors: Fengkai Yang, Zherui Chen, Xiaohan Wang, Xiaodong Lu, Jiajun Chai, Guojun Yin, Wei Lin, Shuai Ma, Fuzhen Zhuang, Deqing Wang, Yaodong Yang, Jianxin Li, Yikun Ban
cs.AI

papers.abstract

Reinforcement Learning from Verifier Rewards (RLVR) hat sich als weit verbreiteter Ansatz für das Nachtraining großer Sprachmodelle an Reasoning-Aufgaben etabliert, wobei gruppenbasierte Methoden wie GRPO und deren Varianten breite Anwendung finden. Diese Methoden stützen sich auf gruppenrelative Vorteilsschätzung, um gelernte Kritiker zu vermeiden; deren theoretische Eigenschaften sind jedoch nach wie vor kaum verstanden. In dieser Arbeit decken wir ein grundlegendes Problem des gruppenbasierten Reinforcement Learnings auf: Der gruppenrelative Vorteilsschätzer ist inhärent verzerrt im Vergleich zum wahren (erwarteten) Vorteil. Wir liefern die erste theoretische Analyse, die zeigt, dass er Vorteile für schwierige Prompts systematisch unterschätzt und für leichte Prompts überschätzt, was zu einem unausgewogenen Verhältnis von Exploration und Exploitation führt. Um dieses Problem zu adressieren, schlagen wir History-Aware Adaptive Difficulty Weighting (HA-DW) vor, ein adaptives Neugewichtungsschema, das die Vorteilsschätzungen auf Basis eines sich entwickelnden Schwierigkeits-Ankers und der Trainingsdynamik anpasst. Sowohl theoretische Analysen als auch Experimente mit fünf mathematischen Reasoning-Benchmarks belegen, dass HA-DW die Leistung bei Integration in GRPO und dessen Varianten konsistent verbessert. Unsere Ergebnisse deuten darauf hin, dass die Korrektur verzerrter Vorteilsschätzung entscheidend für ein robustes und effizientes RLVR-Training ist.
English
Reinforcement Learning from Verifier Rewards (RLVR) has emerged as a widely used approach for post-training large language models on reasoning tasks, with group-based methods such as GRPO and its variants gaining broad adoption. These methods rely on group-relative advantage estimation to avoid learned critics, yet its theoretical properties remain poorly understood. In this work, we uncover a fundamental issue of group-based RL: the group-relative advantage estimator is inherently biased relative to the true (expected) advantage. We provide the first theoretical analysis showing that it systematically underestimates advantages for hard prompts and overestimates them for easy prompts, leading to imbalanced exploration and exploitation. To address this issue, we propose History-Aware Adaptive Difficulty Weighting (HA-DW), an adaptive reweighting scheme that adjusts advantage estimates based on an evolving difficulty anchor and training dynamics. Both theoretical analysis and experiments on five mathematical reasoning benchmarks demonstrate that HA-DW consistently improves performance when integrated into GRPO and its variants. Our results suggest that correcting biased advantage estimation is critical for robust and efficient RLVR training.
PDF955January 20, 2026