ChatPaper.aiChatPaper

Geometrisch Gemiddelde Beleidsoptimalisatie

Geometric-Mean Policy Optimization

July 28, 2025
Auteurs: Yuzhong Zhao, Yue Liu, Junpeng Liu, Jingye Chen, Xun Wu, Yaru Hao, Tengchao Lv, Shaohan Huang, Lei Cui, Qixiang Ye, Fang Wan, Furu Wei
cs.AI

Samenvatting

Recente vooruitgang, zoals Group Relative Policy Optimization (GRPO), heeft de redeneervaardigheden van grote taalmodellen verbeterd door het optimaliseren van het rekenkundig gemiddelde van token-level beloningen. GRPO heeft echter last van onstabiele beleidsupdates bij het verwerken van tokens met uitschieters in de belangrijkheidsgewogen beloningen, wat zich manifesteert als extreme importance sampling-ratio's tijdens de training, d.w.z. de verhouding tussen de steekproefkansen die aan een token worden toegekend door het huidige en het oude beleid. In dit werk stellen we Geometric-Mean Policy Optimization (GMPO) voor, een gestabiliseerde variant van GRPO. In plaats van het rekenkundig gemiddelde te optimaliseren, maximaliseert GMPO het meetkundig gemiddelde van token-level beloningen, wat inherent minder gevoelig is voor uitschieters en een stabieler bereik van importance sampling-ratio's behoudt. Daarnaast bieden we een uitgebreide theoretische en experimentele analyse om het ontwerp en de stabiliteitsvoordelen van GMPO te rechtvaardigen. Naast verbeterde stabiliteit presteert GMPO-7B gemiddeld 4,1% beter dan GRPO op meerdere wiskundige benchmarks en 1,4% beter op de multimodale redeneerbenchmark, waaronder AIME24, AMC, MATH500, OlympiadBench, Minerva en Geometry3K. De code is beschikbaar op https://github.com/callsys/GMPO.
English
Recent advancements, such as Group Relative Policy Optimization (GRPO), have enhanced the reasoning capabilities of large language models by optimizing the arithmetic mean of token-level rewards. However, GRPO suffers from unstable policy updates when processing tokens with outlier importance-weighted rewards, which manifests as extreme importance sampling ratios during training, i.e., the ratio between the sampling probabilities assigned to a token by the current and old policies. In this work, we propose Geometric-Mean Policy Optimization (GMPO), a stabilized variant of GRPO. Instead of optimizing the arithmetic mean, GMPO maximizes the geometric mean of token-level rewards, which is inherently less sensitive to outliers and maintains a more stable range of importance sampling ratio. In addition, we provide comprehensive theoretical and experimental analysis to justify the design and stability benefits of GMPO. Beyond improved stability, GMPO-7B outperforms GRPO by an average of 4.1% on multiple mathematical benchmarks and 1.4% on multimodal reasoning benchmark, including AIME24, AMC, MATH500, OlympiadBench, Minerva, and Geometry3K. Code is available at https://github.com/callsys/GMPO.
PDF312July 29, 2025