Optimización de Políticas de Media Geométrica
Geometric-Mean Policy Optimization
July 28, 2025
Autores: Yuzhong Zhao, Yue Liu, Junpeng Liu, Jingye Chen, Xun Wu, Yaru Hao, Tengchao Lv, Shaohan Huang, Lei Cui, Qixiang Ye, Fang Wan, Furu Wei
cs.AI
Resumen
Los avances recientes, como la Optimización de Políticas Relativas de Grupo (GRPO, por sus siglas en inglés), han mejorado las capacidades de razonamiento de los modelos de lenguaje de gran escala al optimizar la media aritmética de las recompensas a nivel de token. Sin embargo, GRPO presenta inestabilidad en las actualizaciones de políticas al procesar tokens con recompensas ponderadas por importancia atípicas, lo que se manifiesta como ratios de muestreo de importancia extremos durante el entrenamiento, es decir, la relación entre las probabilidades de muestreo asignadas a un token por las políticas actual y anterior. En este trabajo, proponemos la Optimización de Políticas de Media Geométrica (GMPO), una variante estabilizada de GRPO. En lugar de optimizar la media aritmética, GMPO maximiza la media geométrica de las recompensas a nivel de token, que es intrínsecamente menos sensible a valores atípicos y mantiene un rango más estable del ratio de muestreo de importancia. Además, proporcionamos un análisis teórico y experimental exhaustivo para justificar el diseño y los beneficios de estabilidad de GMPO. Más allá de la mejora en la estabilidad, GMPO-7B supera a GRPO en un promedio del 4.1% en múltiples benchmarks matemáticos y del 1.4% en el benchmark de razonamiento multimodal, incluyendo AIME24, AMC, MATH500, OlympiadBench, Minerva y Geometry3K. El código está disponible en https://github.com/callsys/GMPO.
English
Recent advancements, such as Group Relative Policy Optimization (GRPO), have
enhanced the reasoning capabilities of large language models by optimizing the
arithmetic mean of token-level rewards. However, GRPO suffers from unstable
policy updates when processing tokens with outlier importance-weighted rewards,
which manifests as extreme importance sampling ratios during training, i.e.,
the ratio between the sampling probabilities assigned to a token by the current
and old policies. In this work, we propose Geometric-Mean Policy Optimization
(GMPO), a stabilized variant of GRPO. Instead of optimizing the arithmetic
mean, GMPO maximizes the geometric mean of token-level rewards, which is
inherently less sensitive to outliers and maintains a more stable range of
importance sampling ratio. In addition, we provide comprehensive theoretical
and experimental analysis to justify the design and stability benefits of GMPO.
Beyond improved stability, GMPO-7B outperforms GRPO by an average of 4.1% on
multiple mathematical benchmarks and 1.4% on multimodal reasoning benchmark,
including AIME24, AMC, MATH500, OlympiadBench, Minerva, and Geometry3K. Code is
available at https://github.com/callsys/GMPO.