Revelando a Simetria de Vantagem Implícita: Por que o GRPO Luta com Exploração e Adaptação à Dificuldade

Resumo

O Reforço de Aprendizagem com Recompensas Verificáveis (RLVR), particularmente o GRPO, tornou-se o padrão para eliciar o raciocínio em LLMs. No entanto, a sua eficiência na exploração e adaptação à dificuldade permanece um desafio em aberto. Neste trabalho, argumentamos que estes gargalos resultam de uma simetria de vantagem implícita inerente à Estimativa de Vantagem Relativa de Grupo (GRAE). Esta simetria induz duas limitações críticas: (i) ao nível do grupo, a simetria estrita nos pesos entre trajetórias corretas e incorretas deixa inalterados os *logits* de ações não amostradas, prejudicando assim a exploração de novas soluções corretas; (ii) ao nível da amostra, o algoritmo prioriza implicitamente amostras de dificuldade média, permanecendo agnóstico em relação às demandas não estacionárias do foco na dificuldade. Através de experiências controladas, revelamos que esta propriedade simétrica é subótima, produzindo duas perspetivas fundamentais: (i) a supressão assimétrica das vantagens das trajetórias corretas incentiva a exploração essencial; (ii) a eficiência de aprendizagem é maximizada por uma transição semelhante a um currículo, priorizando inicialmente amostras mais simples antes de mudar gradualmente para as complexas. Motivados por estas descobertas, propomos a GRAE Assimétrica (A-GRAE), que modula dinamicamente os incentivos à exploração e o foco na dificuldade das amostras. Experiências em sete *benchmarks* demonstram que a A-GRAE melhora consistentemente o GRPO e as suas variantes tanto em LLMs como em MLLMs.

English

Reinforcement Learning with Verifiable Rewards (RLVR), particularly GRPO, has become the standard for eliciting LLM reasoning. However, its efficiency in exploration and difficulty adaptation remains an open challenge. In this work, we argue that these bottlenecks stem from an implicit advantage symmetry inherent in Group Relative Advantage Estimation (GRAE). This symmetry induces two critical limitations: (i) at the group level, strict symmetry in weights between correct and incorrect trajectories leaves unsampled action logits unchanged, thereby hindering exploration of novel correct solution. (ii) at the sample level, the algorithm implicitly prioritizes medium-difficulty samples, remaining agnostic to the non-stationary demands of difficulty focus. Through controlled experiments, we reveal that this symmetric property is sub-optimal, yielding two pivotal insights: (i) asymmetrically suppressing the advantages of correct trajectories encourages essential exploration. (ii) learning efficiency is maximized by a curriculum-like transition-prioritizing simpler samples initially before gradually shifting to complex ones. Motivated by these findings, we propose Asymmetric GRAE (A-GRAE), which dynamically modulates exploration incentives and sample-difficulty focus. Experiments across seven benchmarks demonstrate that A-GRAE consistently improves GRPO and its variants across both LLMs and MLLMs.

Revelando a Simetria de Vantagem Implícita: Por que o GRPO Luta com Exploração e Adaptação à Dificuldade

Unveiling Implicit Advantage Symmetry: Why GRPO Struggles with Exploration and Difficulty Adaptation

Resumo

Support