ChatPaper.aiChatPaper

Votre avantage relatif au groupe est biaisé

Your Group-Relative Advantage Is Biased

January 13, 2026
papers.authors: Fengkai Yang, Zherui Chen, Xiaohan Wang, Xiaodong Lu, Jiajun Chai, Guojun Yin, Wei Lin, Shuai Ma, Fuzhen Zhuang, Deqing Wang, Yaodong Yang, Jianxin Li, Yikun Ban
cs.AI

papers.abstract

L'apprentissage par renforcement à partir de récompenses de vérificateurs (RLVR) est devenu une approche largement utilisée pour l'affinage post-formation des grands modèles de langage sur des tâches de raisonnement, les méthodes basées sur les groupes telles que GRPO et ses variantes ayant connu une large adoption. Ces méthodes s'appuient sur l'estimation de l'avantage relatif au groupe pour éviter les critiques apprises, mais ses propriétés théoriques restent mal comprises. Dans ce travail, nous mettons en lumière un problème fondamental du RL basé sur les groupes : l'estimateur d'avantage relatif au groupe est intrinsèquement biaisé par rapport à l'avantage vrai (espéré). Nous présentons la première analyse théorique montrant qu'il sous-estime systématiquement les avantages pour les invites difficiles et les surestime pour les invites faciles, conduisant à une exploration et une exploitation déséquilibrées. Pour résoudre ce problème, nous proposons la Pondération Adaptative de Difficulté avec Mémoire (HA-DW), un schéma de repondération adaptative qui ajuste les estimations d'avantage sur la base d'une ancre de difficulté évolutive et de la dynamique d'entraînement. L'analyse théorique et les expériences menées sur cinq benchmarks de raisonnement mathématique démontrent que HA-DW améliore constamment les performances lorsqu'il est intégré à GRPO et ses variantes. Nos résultats suggèrent que la correction de l'estimation biaisée de l'avantage est cruciale pour un entraînement RLVR robuste et efficace.
English
Reinforcement Learning from Verifier Rewards (RLVR) has emerged as a widely used approach for post-training large language models on reasoning tasks, with group-based methods such as GRPO and its variants gaining broad adoption. These methods rely on group-relative advantage estimation to avoid learned critics, yet its theoretical properties remain poorly understood. In this work, we uncover a fundamental issue of group-based RL: the group-relative advantage estimator is inherently biased relative to the true (expected) advantage. We provide the first theoretical analysis showing that it systematically underestimates advantages for hard prompts and overestimates them for easy prompts, leading to imbalanced exploration and exploitation. To address this issue, we propose History-Aware Adaptive Difficulty Weighting (HA-DW), an adaptive reweighting scheme that adjusts advantage estimates based on an evolving difficulty anchor and training dynamics. Both theoretical analysis and experiments on five mathematical reasoning benchmarks demonstrate that HA-DW consistently improves performance when integrated into GRPO and its variants. Our results suggest that correcting biased advantage estimation is critical for robust and efficient RLVR training.
PDF955January 20, 2026