ChatPaper.aiChatPaper

Ваше групповое относительное преимущество является предвзятым.

Your Group-Relative Advantage Is Biased

January 13, 2026
Авторы: Fengkai Yang, Zherui Chen, Xiaohan Wang, Xiaodong Lu, Jiajun Chai, Guojun Yin, Wei Lin, Shuai Ma, Fuzhen Zhuang, Deqing Wang, Yaodong Yang, Jianxin Li, Yikun Ban
cs.AI

Аннотация

Обучение с подкреплением на основе верификаторов (RLVR) стало широко используемым подходом для дообучения больших языковых моделей на задачах логического рассуждения, при этом групповые методы, такие как GRPO и их варианты, получили широкое распространение. Эти методы полагаются на оценку группового относительного преимущества, чтобы избежать использования обучаемых критиков, однако их теоретические свойства остаются малоизученными. В данной работе мы выявляем фундаментальную проблему группового RL: оценка группового относительного преимущения является по своей природе смещенной относительно истинного (математического ожидания) преимущества. Мы представляем первый теоретический анализ, показывающий, что она систематически занижает преимущества для сложных промптов и завышает их для простых, что приводит к несбалансированному исследованию и эксплуатации. Для решения этой проблемы мы предлагаем адаптивное взвешивание по сложности с учетом истории (HA-DW) — адаптивную схему перевзвешивания, которая корректирует оценки преимущества на основе развивающегося якоря сложности и динамики обучения. Как теоретический анализ, так и эксперименты на пяти benchmarks математических рассуждений демонстрируют, что HA-DW стабильно улучшает производительность при интеграции в GRPO и его варианты. Наши результаты позволяют предположить, что корректировка смещенной оценки преимущества имеет критическое значение для надежного и эффективного обучения RLVR.
English
Reinforcement Learning from Verifier Rewards (RLVR) has emerged as a widely used approach for post-training large language models on reasoning tasks, with group-based methods such as GRPO and its variants gaining broad adoption. These methods rely on group-relative advantage estimation to avoid learned critics, yet its theoretical properties remain poorly understood. In this work, we uncover a fundamental issue of group-based RL: the group-relative advantage estimator is inherently biased relative to the true (expected) advantage. We provide the first theoretical analysis showing that it systematically underestimates advantages for hard prompts and overestimates them for easy prompts, leading to imbalanced exploration and exploitation. To address this issue, we propose History-Aware Adaptive Difficulty Weighting (HA-DW), an adaptive reweighting scheme that adjusts advantage estimates based on an evolving difficulty anchor and training dynamics. Both theoretical analysis and experiments on five mathematical reasoning benchmarks demonstrate that HA-DW consistently improves performance when integrated into GRPO and its variants. Our results suggest that correcting biased advantage estimation is critical for robust and efficient RLVR training.
PDF955January 20, 2026