Agregación Equilibrada: Comprender y Corregir el Sesgo de Agregación en GRPO

Resumen

El aprendizaje por refuerzo con recompensas verificables (RLVR) se ha convertido en un paradigma central para mejorar el razonamiento y la generación de código en los grandes modelos de lenguaje, y el entrenamiento de estilo GRPO es ampliamente adoptado por su simplicidad y eficacia. Sin embargo, una decisión de diseño importante sigue sin explorarse adecuadamente: cómo se agregan los términos del gradiente de la política a nivel de token dentro de cada grupo muestreado. El GRPO estándar utiliza la agregación por secuencia, mientras que trabajos recientes han propuesto la agregación por token como una alternativa mejor. Demostramos que estas dos reglas inducen sesgos de optimización diferentes: la agregación por token introduce un acoplamiento signo-longitud, mientras que la agregación por secuencia pondera implícitamente menos las respuestas más largas mediante una ponderación igual a nivel de secuencia. Para abordar esta tensión, proponemos la Agregación Balanceada (BA), un reemplazo simple que calcula las medias a nivel de token por separado dentro de los subconjuntos positivo y negativo y luego las combina con pesos basados en el recuento de secuencias. Los experimentos con Qwen2.5-Math-7B y Qwen3-1.7B en DAPO-17k y Polaris, evaluados en seis benchmarks de razonamiento y codificación, muestran que BA mejora consistentemente la estabilidad del entrenamiento y el rendimiento final en comparación con la agregación estándar por token y por secuencia. Nuestro análisis muestra además que la efectividad relativa de la agregación por token y por secuencia está gobernada en gran medida por la variación de la longitud de la respuesta y la brecha de longitud positivo-negativa, destacando la agregación como una dimensión de diseño crítica en el RLVR de estilo GRPO.

English

Reinforcement learning with verifiable rewards (RLVR) has become a central paradigm for improving reasoning and code generation in large language models, and GRPO-style training is widely adopted for its simplicity and effectiveness. However, an important design choice remains underexplored: how token-level policy gradient terms are aggregated within each sampled group. Standard GRPO uses sequence aggregation, while recent work has advocated token aggregation as a better alternative. We show that these two rules induce different optimization biases: token aggregation introduces sign-length coupling, while sequence aggregation implicitly downweights longer responses through sequence-level equal weighting. To address this tension, we propose Balanced Aggregation (BA), a simple drop-in replacement that computes token-level means separately within the positive and negative subsets and then combines them with sequence-count-based weights. Experiments with Qwen2.5-Math-7B and Qwen3-1.7B on DAPO-17k and Polaris, evaluated on six reasoning and coding benchmarks, show that BA consistently improves training stability and final performance over standard token and sequence aggregation. Our analysis further shows that the relative effectiveness of token and sequence aggregation is largely governed by response-length variation and the positive-negative length gap, highlighting aggregation as a critical design dimension in GRPO-style RLVR.

Agregación Equilibrada: Comprender y Corregir el Sesgo de Agregación en GRPO

Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO

Resumen

Support