Agrégation équilibrée : Comprendre et corriger le biais d'agrégation dans GRPO

Résumé

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est devenu un paradigme central pour améliorer le raisonnement et la génération de code dans les grands modèles linguistiques, et l'entraînement de type GRPO est largement adopté pour sa simplicité et son efficacité. Cependant, un choix de conception important reste peu exploré : la manière dont les termes de gradient de politique au niveau token sont agrégés au sein de chaque groupe échantillonné. Le GRPO standard utilise l'agrégation par séquence, tandis que des travaux récents ont préconisé l'agrégation par token comme une meilleure alternative. Nous montrons que ces deux règles induisent des biais d'optimisation différents : l'agrégation par token introduit un couplage signe-longueur, tandis que l'agrégation par séquence pondère implicitement moins les réponses plus longues via une pondération égale au niveau séquentiel. Pour résoudre cette tension, nous proposons l'Agrégation Équilibrée (BA), un remplacement simple qui calcule les moyennes au niveau token séparément dans les sous-ensembles positifs et négatifs, puis les combine avec des poids basés sur le décompte des séquences. Les expériences avec Qwen2.5-Math-7B et Qwen3-1.7B sur DAPO-17k et Polaris, évaluées sur six benchmarks de raisonnement et de codage, montrent que BA améliore constamment la stabilité de l'entraînement et les performances finales par rapport à l'agrégation standard par token et par séquence. Notre analyse montre en outre que l'efficacité relative de l'agrégation par token et par séquence est largement gouvernée par la variation de la longueur des réponses et l'écart de longueur positif-négatif, soulignant l'agrégation comme une dimension de conception critique dans le RLVR de type GRPO.

English

Reinforcement learning with verifiable rewards (RLVR) has become a central paradigm for improving reasoning and code generation in large language models, and GRPO-style training is widely adopted for its simplicity and effectiveness. However, an important design choice remains underexplored: how token-level policy gradient terms are aggregated within each sampled group. Standard GRPO uses sequence aggregation, while recent work has advocated token aggregation as a better alternative. We show that these two rules induce different optimization biases: token aggregation introduces sign-length coupling, while sequence aggregation implicitly downweights longer responses through sequence-level equal weighting. To address this tension, we propose Balanced Aggregation (BA), a simple drop-in replacement that computes token-level means separately within the positive and negative subsets and then combines them with sequence-count-based weights. Experiments with Qwen2.5-Math-7B and Qwen3-1.7B on DAPO-17k and Polaris, evaluated on six reasoning and coding benchmarks, show that BA consistently improves training stability and final performance over standard token and sequence aggregation. Our analysis further shows that the relative effectiveness of token and sequence aggregation is largely governed by response-length variation and the positive-negative length gap, highlighting aggregation as a critical design dimension in GRPO-style RLVR.

Agrégation équilibrée : Comprendre et corriger le biais d'agrégation dans GRPO

Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO

Résumé

Support