ChatPaper.aiChatPaper

Develando la Simetría de Ventaja Implícita: Por Qué GRPO Lucha con la Exploración y la Adaptación a la Dificultad

Unveiling Implicit Advantage Symmetry: Why GRPO Struggles with Exploration and Difficulty Adaptation

February 5, 2026
Autores: Zhiqi Yu, Zhangquan Chen, Mengting Liu, Heye Zhang, Liangqiong Qu
cs.AI

Resumen

El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR), particularmente GRPO, se ha convertido en el estándar para elicitar el razonamiento en LLMs. Sin embargo, su eficiencia en la exploración y la adaptación a la dificultad sigue siendo un desafío abierto. En este trabajo, argumentamos que estos cuellos de botella provienen de una simetría de ventaja implícita inherente a la Estimación de Ventaja Relativa Grupal (GRAE). Esta simetría induce dos limitaciones críticas: (i) a nivel grupal, la simetría estricta en los pesos entre trayectorias correctas e incorrectas deja sin cambios los *logits* de acciones no muestreadas, obstaculizando así la exploración de nuevas soluciones correctas. (ii) a nivel de muestra, el algoritmo prioriza implícitamente muestras de dificultad media, permaneciendo agnóstico a las demandas no estacionarias del enfoque en la dificultad. A través de experimentos controlados, revelamos que esta propiedad simétrica es subóptima, arrojando dos insights fundamentales: (i) suprimir asimétricamente las ventajas de las trayectorias correctas fomenta una exploración esencial. (ii) la eficiencia del aprendizaje se maximiza con una transición curricular que prioriza inicialmente muestras más simples antes de cambiar gradualmente a otras complejas. Motivados por estos hallazgos, proponemos GRAE Asimétrico (A-GRAE), que modula dinámicamente los incentivos de exploración y el enfoque en la dificultad de las muestras. Los experimentos en siete benchmarks demuestran que A-GRAE mejora consistentemente a GRPO y sus variantes tanto en LLMs como en MLLMs.
English
Reinforcement Learning with Verifiable Rewards (RLVR), particularly GRPO, has become the standard for eliciting LLM reasoning. However, its efficiency in exploration and difficulty adaptation remains an open challenge. In this work, we argue that these bottlenecks stem from an implicit advantage symmetry inherent in Group Relative Advantage Estimation (GRAE). This symmetry induces two critical limitations: (i) at the group level, strict symmetry in weights between correct and incorrect trajectories leaves unsampled action logits unchanged, thereby hindering exploration of novel correct solution. (ii) at the sample level, the algorithm implicitly prioritizes medium-difficulty samples, remaining agnostic to the non-stationary demands of difficulty focus. Through controlled experiments, we reveal that this symmetric property is sub-optimal, yielding two pivotal insights: (i) asymmetrically suppressing the advantages of correct trajectories encourages essential exploration. (ii) learning efficiency is maximized by a curriculum-like transition-prioritizing simpler samples initially before gradually shifting to complex ones. Motivated by these findings, we propose Asymmetric GRAE (A-GRAE), which dynamically modulates exploration incentives and sample-difficulty focus. Experiments across seven benchmarks demonstrate that A-GRAE consistently improves GRPO and its variants across both LLMs and MLLMs.
PDF101February 14, 2026