ChatPaper.aiChatPaper

Otimização de Políticas pela Média Geométrica

Geometric-Mean Policy Optimization

July 28, 2025
Autores: Yuzhong Zhao, Yue Liu, Junpeng Liu, Jingye Chen, Xun Wu, Yaru Hao, Tengchao Lv, Shaohan Huang, Lei Cui, Qixiang Ye, Fang Wan, Furu Wei
cs.AI

Resumo

Avanços recentes, como a Otimização de Política Relativa de Grupo (GRPO), aprimoraram as capacidades de raciocínio de grandes modelos de linguagem ao otimizar a média aritmética das recompensas em nível de token. No entanto, o GRPO sofre com atualizações de política instáveis ao processar tokens com recompensas ponderadas por importância discrepantes, o que se manifesta como razões de amostragem de importância extremas durante o treinamento, ou seja, a razão entre as probabilidades de amostragem atribuídas a um token pelas políticas atual e antiga. Neste trabalho, propomos a Otimização de Política de Média Geométrica (GMPO), uma variante estabilizada do GRPO. Em vez de otimizar a média aritmética, o GMPO maximiza a média geométrica das recompensas em nível de token, que é intrinsecamente menos sensível a valores discrepantes e mantém uma faixa mais estável da razão de amostragem de importância. Além disso, fornecemos uma análise teórica e experimental abrangente para justificar o design e os benefícios de estabilidade do GMPO. Além da estabilidade aprimorada, o GMPO-7B supera o GRPO em média 4,1% em vários benchmarks matemáticos e 1,4% em benchmarks de raciocínio multimodal, incluindo AIME24, AMC, MATH500, OlympiadBench, Minerva e Geometry3K. O código está disponível em https://github.com/callsys/GMPO.
English
Recent advancements, such as Group Relative Policy Optimization (GRPO), have enhanced the reasoning capabilities of large language models by optimizing the arithmetic mean of token-level rewards. However, GRPO suffers from unstable policy updates when processing tokens with outlier importance-weighted rewards, which manifests as extreme importance sampling ratios during training, i.e., the ratio between the sampling probabilities assigned to a token by the current and old policies. In this work, we propose Geometric-Mean Policy Optimization (GMPO), a stabilized variant of GRPO. Instead of optimizing the arithmetic mean, GMPO maximizes the geometric mean of token-level rewards, which is inherently less sensitive to outliers and maintains a more stable range of importance sampling ratio. In addition, we provide comprehensive theoretical and experimental analysis to justify the design and stability benefits of GMPO. Beyond improved stability, GMPO-7B outperforms GRPO by an average of 4.1% on multiple mathematical benchmarks and 1.4% on multimodal reasoning benchmark, including AIME24, AMC, MATH500, OlympiadBench, Minerva, and Geometry3K. Code is available at https://github.com/callsys/GMPO.
PDF202July 29, 2025