Otimização de Políticas pela Média Geométrica
Geometric-Mean Policy Optimization
July 28, 2025
Autores: Yuzhong Zhao, Yue Liu, Junpeng Liu, Jingye Chen, Xun Wu, Yaru Hao, Tengchao Lv, Shaohan Huang, Lei Cui, Qixiang Ye, Fang Wan, Furu Wei
cs.AI
Resumo
Avanços recentes, como a Otimização de Política Relativa de Grupo (GRPO), aprimoraram as capacidades de raciocínio de grandes modelos de linguagem ao otimizar a média aritmética das recompensas em nível de token. No entanto, o GRPO sofre com atualizações de política instáveis ao processar tokens com recompensas ponderadas por importância discrepantes, o que se manifesta como razões de amostragem de importância extremas durante o treinamento, ou seja, a razão entre as probabilidades de amostragem atribuídas a um token pelas políticas atual e antiga. Neste trabalho, propomos a Otimização de Política de Média Geométrica (GMPO), uma variante estabilizada do GRPO. Em vez de otimizar a média aritmética, o GMPO maximiza a média geométrica das recompensas em nível de token, que é intrinsecamente menos sensível a valores discrepantes e mantém uma faixa mais estável da razão de amostragem de importância. Além disso, fornecemos uma análise teórica e experimental abrangente para justificar o design e os benefícios de estabilidade do GMPO. Além da estabilidade aprimorada, o GMPO-7B supera o GRPO em média 4,1% em vários benchmarks matemáticos e 1,4% em benchmarks de raciocínio multimodal, incluindo AIME24, AMC, MATH500, OlympiadBench, Minerva e Geometry3K. O código está disponível em https://github.com/callsys/GMPO.
English
Recent advancements, such as Group Relative Policy Optimization (GRPO), have
enhanced the reasoning capabilities of large language models by optimizing the
arithmetic mean of token-level rewards. However, GRPO suffers from unstable
policy updates when processing tokens with outlier importance-weighted rewards,
which manifests as extreme importance sampling ratios during training, i.e.,
the ratio between the sampling probabilities assigned to a token by the current
and old policies. In this work, we propose Geometric-Mean Policy Optimization
(GMPO), a stabilized variant of GRPO. Instead of optimizing the arithmetic
mean, GMPO maximizes the geometric mean of token-level rewards, which is
inherently less sensitive to outliers and maintains a more stable range of
importance sampling ratio. In addition, we provide comprehensive theoretical
and experimental analysis to justify the design and stability benefits of GMPO.
Beyond improved stability, GMPO-7B outperforms GRPO by an average of 4.1% on
multiple mathematical benchmarks and 1.4% on multimodal reasoning benchmark,
including AIME24, AMC, MATH500, OlympiadBench, Minerva, and Geometry3K. Code is
available at https://github.com/callsys/GMPO.