Geometrisch-Mittel-Politikoptimierung
Geometric-Mean Policy Optimization
July 28, 2025
papers.authors: Yuzhong Zhao, Yue Liu, Junpeng Liu, Jingye Chen, Xun Wu, Yaru Hao, Tengchao Lv, Shaohan Huang, Lei Cui, Qixiang Ye, Fang Wan, Furu Wei
cs.AI
papers.abstract
Jüngste Fortschritte, wie die Group Relative Policy Optimization (GRPO), haben die Fähigkeiten großer Sprachmodelle zur logischen Schlussfolgerung verbessert, indem sie das arithmetische Mittel der Token-Level-Belohnungen optimieren. Allerdings leidet GRPO unter instabilen Policy-Updates bei der Verarbeitung von Tokens mit Ausreißern in den gewichteten Belohnungen, was sich in extremen Importance-Sampling-Verhältnissen während des Trainings manifestiert, d. h. dem Verhältnis zwischen den Sampling-Wahrscheinlichkeiten, die einem Token von der aktuellen und der alten Policy zugewiesen werden. In dieser Arbeit schlagen wir die Geometric-Mean Policy Optimization (GMPO) vor, eine stabilisierte Variante von GRPO. Anstatt das arithmetische Mittel zu optimieren, maximiert GMPO das geometrische Mittel der Token-Level-Belohnungen, das von Natur aus weniger empfindlich gegenüber Ausreißern ist und einen stabileren Bereich des Importance-Sampling-Verhältnisses beibehält. Darüber hinaus liefern wir eine umfassende theoretische und experimentelle Analyse, um das Design und die Stabilitätsvorteile von GMPO zu untermauern. Neben der verbesserten Stabilität übertrifft GMPO-7B GRPO im Durchschnitt um 4,1 % bei mehreren mathematischen Benchmarks und um 1,4 % bei einem multimodalen Reasoning-Benchmark, einschließlich AIME24, AMC, MATH500, OlympiadBench, Minerva und Geometry3K. Der Code ist verfügbar unter https://github.com/callsys/GMPO.
English
Recent advancements, such as Group Relative Policy Optimization (GRPO), have
enhanced the reasoning capabilities of large language models by optimizing the
arithmetic mean of token-level rewards. However, GRPO suffers from unstable
policy updates when processing tokens with outlier importance-weighted rewards,
which manifests as extreme importance sampling ratios during training, i.e.,
the ratio between the sampling probabilities assigned to a token by the current
and old policies. In this work, we propose Geometric-Mean Policy Optimization
(GMPO), a stabilized variant of GRPO. Instead of optimizing the arithmetic
mean, GMPO maximizes the geometric mean of token-level rewards, which is
inherently less sensitive to outliers and maintains a more stable range of
importance sampling ratio. In addition, we provide comprehensive theoretical
and experimental analysis to justify the design and stability benefits of GMPO.
Beyond improved stability, GMPO-7B outperforms GRPO by an average of 4.1% on
multiple mathematical benchmarks and 1.4% on multimodal reasoning benchmark,
including AIME24, AMC, MATH500, OlympiadBench, Minerva, and Geometry3K. Code is
available at https://github.com/callsys/GMPO.