Su ventaja relativa al grupo está sesgada.
Your Group-Relative Advantage Is Biased
January 13, 2026
Autores: Fengkai Yang, Zherui Chen, Xiaohan Wang, Xiaodong Lu, Jiajun Chai, Guojun Yin, Wei Lin, Shuai Ma, Fuzhen Zhuang, Deqing Wang, Yaodong Yang, Jianxin Li, Yikun Ban
cs.AI
Resumen
El Aprendizaje por Refuerzo a partir de Recompensas de Verificación (RLVR) ha surgido como un enfoque ampliamente utilizado para el post-entrenamiento de modelos de lenguaje grandes en tareas de razonamiento, con métodos basados en grupos como GRPO y sus variantes ganando una amplia adopción. Estos métodos se basan en la estimación de ventajas relativas al grupo para evitar el uso de críticos aprendidos, sin embargo, sus propiedades teóricas siguen siendo poco comprendidas.
En este trabajo, descubrimos un problema fundamental del RL basado en grupos: el estimador de ventaja relativa al grupo es inherentemente sesgado con respecto a la ventaja verdadera (esperada). Proporcionamos el primer análisis teórico que demuestra que subestima sistemáticamente las ventajas para instrucciones difíciles y las sobreestima para instrucciones fáciles, lo que conduce a una exploración y explotación desequilibradas. Para abordar este problema, proponemos la Ponderación Adaptativa de Dificultad con Conciencia Histórica (HA-DW), un esquema de reponderación adaptativa que ajusta las estimaciones de ventaja basándose en un ancla de dificultad en evolución y en la dinámica del entrenamiento. Tanto el análisis teórico como los experimentos en cinco benchmarks de razonamiento matemático demuestran que HA-DW mejora consistentemente el rendimiento cuando se integra en GRPO y sus variantes. Nuestros resultados sugieren que corregir la estimación sesgada de ventajas es fundamental para un entrenamiento RLVR robusto y eficiente.
English
Reinforcement Learning from Verifier Rewards (RLVR) has emerged as a widely used approach for post-training large language models on reasoning tasks, with group-based methods such as GRPO and its variants gaining broad adoption. These methods rely on group-relative advantage estimation to avoid learned critics, yet its theoretical properties remain poorly understood.
In this work, we uncover a fundamental issue of group-based RL: the group-relative advantage estimator is inherently biased relative to the true (expected) advantage. We provide the first theoretical analysis showing that it systematically underestimates advantages for hard prompts and overestimates them for easy prompts, leading to imbalanced exploration and exploitation. To address this issue, we propose History-Aware Adaptive Difficulty Weighting (HA-DW), an adaptive reweighting scheme that adjusts advantage estimates based on an evolving difficulty anchor and training dynamics. Both theoretical analysis and experiments on five mathematical reasoning benchmarks demonstrate that HA-DW consistently improves performance when integrated into GRPO and its variants. Our results suggest that correcting biased advantage estimation is critical for robust and efficient RLVR training.