Optimisation des Politiques par Moyenne Géométrique
Geometric-Mean Policy Optimization
July 28, 2025
papers.authors: Yuzhong Zhao, Yue Liu, Junpeng Liu, Jingye Chen, Xun Wu, Yaru Hao, Tengchao Lv, Shaohan Huang, Lei Cui, Qixiang Ye, Fang Wan, Furu Wei
cs.AI
papers.abstract
Les avancées récentes, telles que l'Optimisation de Politique Relative par Groupe (GRPO), ont amélioré les capacités de raisonnement des grands modèles de langage en optimisant la moyenne arithmétique des récompenses au niveau des tokens. Cependant, GRPO souffre de mises à jour de politique instables lors du traitement des tokens avec des récompenses pondérées par importance aberrantes, ce qui se manifeste par des ratios d'échantillonnage d'importance extrêmes pendant l'entraînement, c'est-à-dire le rapport entre les probabilités d'échantillonnage attribuées à un token par les politiques actuelle et ancienne. Dans ce travail, nous proposons l'Optimisation de Politique par Moyenne Géométrique (GMPO), une variante stabilisée de GRPO. Au lieu d'optimiser la moyenne arithmétique, GMPO maximise la moyenne géométrique des récompenses au niveau des tokens, qui est intrinsèquement moins sensible aux valeurs aberrantes et maintient une plage plus stable de ratios d'échantillonnage d'importance. De plus, nous fournissons une analyse théorique et expérimentale complète pour justifier la conception et les avantages de stabilité de GMPO. Au-delà de l'amélioration de la stabilité, GMPO-7B surpasse GRPO en moyenne de 4,1 % sur plusieurs benchmarks mathématiques et de 1,4 % sur un benchmark de raisonnement multimodal, incluant AIME24, AMC, MATH500, OlympiadBench, Minerva et Geometry3K. Le code est disponible à l'adresse https://github.com/callsys/GMPO.
English
Recent advancements, such as Group Relative Policy Optimization (GRPO), have
enhanced the reasoning capabilities of large language models by optimizing the
arithmetic mean of token-level rewards. However, GRPO suffers from unstable
policy updates when processing tokens with outlier importance-weighted rewards,
which manifests as extreme importance sampling ratios during training, i.e.,
the ratio between the sampling probabilities assigned to a token by the current
and old policies. In this work, we propose Geometric-Mean Policy Optimization
(GMPO), a stabilized variant of GRPO. Instead of optimizing the arithmetic
mean, GMPO maximizes the geometric mean of token-level rewards, which is
inherently less sensitive to outliers and maintains a more stable range of
importance sampling ratio. In addition, we provide comprehensive theoretical
and experimental analysis to justify the design and stability benefits of GMPO.
Beyond improved stability, GMPO-7B outperforms GRPO by an average of 4.1% on
multiple mathematical benchmarks and 1.4% on multimodal reasoning benchmark,
including AIME24, AMC, MATH500, OlympiadBench, Minerva, and Geometry3K. Code is
available at https://github.com/callsys/GMPO.