Optimización de Políticas de Media Geométrica

Resumen

Los avances recientes, como la Optimización de Políticas Relativas de Grupo (GRPO, por sus siglas en inglés), han mejorado las capacidades de razonamiento de los modelos de lenguaje de gran escala al optimizar la media aritmética de las recompensas a nivel de token. Sin embargo, GRPO presenta inestabilidad en las actualizaciones de políticas al procesar tokens con recompensas ponderadas por importancia atípicas, lo que se manifiesta como ratios de muestreo de importancia extremos durante el entrenamiento, es decir, la relación entre las probabilidades de muestreo asignadas a un token por las políticas actual y anterior. En este trabajo, proponemos la Optimización de Políticas de Media Geométrica (GMPO), una variante estabilizada de GRPO. En lugar de optimizar la media aritmética, GMPO maximiza la media geométrica de las recompensas a nivel de token, que es intrínsecamente menos sensible a valores atípicos y mantiene un rango más estable del ratio de muestreo de importancia. Además, proporcionamos un análisis teórico y experimental exhaustivo para justificar el diseño y los beneficios de estabilidad de GMPO. Más allá de la mejora en la estabilidad, GMPO-7B supera a GRPO en un promedio del 4.1% en múltiples benchmarks matemáticos y del 1.4% en el benchmark de razonamiento multimodal, incluyendo AIME24, AMC, MATH500, OlympiadBench, Minerva y Geometry3K. El código está disponible en https://github.com/callsys/GMPO.

English

Recent advancements, such as Group Relative Policy Optimization (GRPO), have enhanced the reasoning capabilities of large language models by optimizing the arithmetic mean of token-level rewards. However, GRPO suffers from unstable policy updates when processing tokens with outlier importance-weighted rewards, which manifests as extreme importance sampling ratios during training, i.e., the ratio between the sampling probabilities assigned to a token by the current and old policies. In this work, we propose Geometric-Mean Policy Optimization (GMPO), a stabilized variant of GRPO. Instead of optimizing the arithmetic mean, GMPO maximizes the geometric mean of token-level rewards, which is inherently less sensitive to outliers and maintains a more stable range of importance sampling ratio. In addition, we provide comprehensive theoretical and experimental analysis to justify the design and stability benefits of GMPO. Beyond improved stability, GMPO-7B outperforms GRPO by an average of 4.1% on multiple mathematical benchmarks and 1.4% on multimodal reasoning benchmark, including AIME24, AMC, MATH500, OlympiadBench, Minerva, and Geometry3K. Code is available at https://github.com/callsys/GMPO.