Révéler la symétrie implicite des avantages : Pourquoi le GRPO peine dans l'exploration et l'adaptation à la difficulté
Unveiling Implicit Advantage Symmetry: Why GRPO Struggles with Exploration and Difficulty Adaptation
February 5, 2026
papers.authors: Zhiqi Yu, Zhangquan Chen, Mengting Liu, Heye Zhang, Liangqiong Qu
cs.AI
papers.abstract
L'apprentissage par renforcement avec récompenses vérifiables (RLVR), particulièrement GRPO, est devenu la méthode standard pour susiter le raisonnement des LLM. Cependant, son efficacité en matière d'exploration et d'adaptation à la difficulté reste un défi non résolu. Dans ce travail, nous soutenons que ces goulots d'étranglement découlent d'une symétrie implicite de l'avantage inhérente à l'estimation d'avantage relative de groupe (GRAE). Cette symétrie induit deux limitations critiques : (i) au niveau du groupe, la symétrie stricte des poids entre les trajectoires correctes et incorrectes laisse inchangés les logits d'actions non échantillonnés, entravant ainsi l'exploration de nouvelles solutions correctes. (ii) au niveau de l'échantillon, l'algorithme privilégie implicitement les échantillons de difficulté moyenne, restant agnostique aux demandes non stationnaires de focalisation sur la difficulté. Par des expériences contrôlées, nous révélons que cette propriété symétrique est sous-optimale, produisant deux insights essentiels : (i) supprimer asymétriquement les avantages des trajectoires correctes encourage une exploration nécessaire. (ii) l'efficacité d'apprentissage est maximisée par une transition de type curriculum, privilégiant d'abord les échantillons simples avant de passer graduellement aux complexes. Motivés par ces résultats, nous proposons GRAE Asymétrique (A-GRAE), qui module dynamiquement les incitations à l'exploration et la focalisation sur la difficulté des échantillons. Les expériences sur sept benchmarks démontrent qu'A-GRAE améliore constamment GRPO et ses variantes, tant pour les LLM que pour les MLLM.
English
Reinforcement Learning with Verifiable Rewards (RLVR), particularly GRPO, has become the standard for eliciting LLM reasoning. However, its efficiency in exploration and difficulty adaptation remains an open challenge. In this work, we argue that these bottlenecks stem from an implicit advantage symmetry inherent in Group Relative Advantage Estimation (GRAE). This symmetry induces two critical limitations: (i) at the group level, strict symmetry in weights between correct and incorrect trajectories leaves unsampled action logits unchanged, thereby hindering exploration of novel correct solution. (ii) at the sample level, the algorithm implicitly prioritizes medium-difficulty samples, remaining agnostic to the non-stationary demands of difficulty focus. Through controlled experiments, we reveal that this symmetric property is sub-optimal, yielding two pivotal insights: (i) asymmetrically suppressing the advantages of correct trajectories encourages essential exploration. (ii) learning efficiency is maximized by a curriculum-like transition-prioritizing simpler samples initially before gradually shifting to complex ones. Motivated by these findings, we propose Asymmetric GRAE (A-GRAE), which dynamically modulates exploration incentives and sample-difficulty focus. Experiments across seven benchmarks demonstrate that A-GRAE consistently improves GRPO and its variants across both LLMs and MLLMs.