Sua Vantagem Relativa ao Grupo É Tendenciosa

Resumo

O Aprendizado por Reforço a partir de Recompensas do Verificador (RLVR) emergiu como uma abordagem amplamente utilizada para o pós-treinamento de grandes modelos de linguagem em tarefas de raciocínio, com métodos baseados em grupo, como GRPO e suas variantes, ganhando ampla adoção. Esses métodos dependem da estimativa de vantagem relativa ao grupo para evitar o uso de críticos aprendidos, mas suas propriedades teóricas permanecem pouco compreendidas. Neste trabalho, descobrimos uma questão fundamental do RL baseado em grupo: o estimador de vantagem relativa ao grupo é inerentemente tendencioso em relação à vantagem verdadeira (esperada). Apresentamos a primeira análise teórica mostrando que ele subestima sistematicamente as vantagens para prompts difíceis e as superestima para prompts fáceis, levando a uma exploração e exploração desequilibradas. Para resolver esse problema, propomos o Ponderação Adaptativa de Dificuldade com Consciência Histórica (HA-DW), um esquema de reponderação adaptativa que ajusta as estimativas de vantagem com base em uma âncora de dificuldade evolutiva e na dinâmica do treinamento. Tanto a análise teórica quanto os experimentos em cinco benchmarks de raciocínio matemático demonstram que o HA-DW melhora consistentemente o desempenho quando integrado ao GRPO e suas variantes. Nossos resultados sugerem que corrigir a estimativa tendenciosa de vantagem é crucial para um treinamento RLVR robusto e eficiente.

English

Reinforcement Learning from Verifier Rewards (RLVR) has emerged as a widely used approach for post-training large language models on reasoning tasks, with group-based methods such as GRPO and its variants gaining broad adoption. These methods rely on group-relative advantage estimation to avoid learned critics, yet its theoretical properties remain poorly understood. In this work, we uncover a fundamental issue of group-based RL: the group-relative advantage estimator is inherently biased relative to the true (expected) advantage. We provide the first theoretical analysis showing that it systematically underestimates advantages for hard prompts and overestimates them for easy prompts, leading to imbalanced exploration and exploitation. To address this issue, we propose History-Aware Adaptive Difficulty Weighting (HA-DW), an adaptive reweighting scheme that adjusts advantage estimates based on an evolving difficulty anchor and training dynamics. Both theoretical analysis and experiments on five mathematical reasoning benchmarks demonstrate that HA-DW consistently improves performance when integrated into GRPO and its variants. Our results suggest that correcting biased advantage estimation is critical for robust and efficient RLVR training.

Sua Vantagem Relativa ao Grupo É Tendenciosa

Your Group-Relative Advantage Is Biased

Resumo

Support