ChatPaper.aiChatPaper

Geometrisch-Mittel-Politikoptimierung

Geometric-Mean Policy Optimization

July 28, 2025
papers.authors: Yuzhong Zhao, Yue Liu, Junpeng Liu, Jingye Chen, Xun Wu, Yaru Hao, Tengchao Lv, Shaohan Huang, Lei Cui, Qixiang Ye, Fang Wan, Furu Wei
cs.AI

papers.abstract

Jüngste Fortschritte, wie die Group Relative Policy Optimization (GRPO), haben die Fähigkeiten großer Sprachmodelle zur logischen Schlussfolgerung verbessert, indem sie das arithmetische Mittel der Token-Level-Belohnungen optimieren. Allerdings leidet GRPO unter instabilen Policy-Updates bei der Verarbeitung von Tokens mit Ausreißern in den gewichteten Belohnungen, was sich in extremen Importance-Sampling-Verhältnissen während des Trainings manifestiert, d. h. dem Verhältnis zwischen den Sampling-Wahrscheinlichkeiten, die einem Token von der aktuellen und der alten Policy zugewiesen werden. In dieser Arbeit schlagen wir die Geometric-Mean Policy Optimization (GMPO) vor, eine stabilisierte Variante von GRPO. Anstatt das arithmetische Mittel zu optimieren, maximiert GMPO das geometrische Mittel der Token-Level-Belohnungen, das von Natur aus weniger empfindlich gegenüber Ausreißern ist und einen stabileren Bereich des Importance-Sampling-Verhältnisses beibehält. Darüber hinaus liefern wir eine umfassende theoretische und experimentelle Analyse, um das Design und die Stabilitätsvorteile von GMPO zu untermauern. Neben der verbesserten Stabilität übertrifft GMPO-7B GRPO im Durchschnitt um 4,1 % bei mehreren mathematischen Benchmarks und um 1,4 % bei einem multimodalen Reasoning-Benchmark, einschließlich AIME24, AMC, MATH500, OlympiadBench, Minerva und Geometry3K. Der Code ist verfügbar unter https://github.com/callsys/GMPO.
English
Recent advancements, such as Group Relative Policy Optimization (GRPO), have enhanced the reasoning capabilities of large language models by optimizing the arithmetic mean of token-level rewards. However, GRPO suffers from unstable policy updates when processing tokens with outlier importance-weighted rewards, which manifests as extreme importance sampling ratios during training, i.e., the ratio between the sampling probabilities assigned to a token by the current and old policies. In this work, we propose Geometric-Mean Policy Optimization (GMPO), a stabilized variant of GRPO. Instead of optimizing the arithmetic mean, GMPO maximizes the geometric mean of token-level rewards, which is inherently less sensitive to outliers and maintains a more stable range of importance sampling ratio. In addition, we provide comprehensive theoretical and experimental analysis to justify the design and stability benefits of GMPO. Beyond improved stability, GMPO-7B outperforms GRPO by an average of 4.1% on multiple mathematical benchmarks and 1.4% on multimodal reasoning benchmark, including AIME24, AMC, MATH500, OlympiadBench, Minerva, and Geometry3K. Code is available at https://github.com/callsys/GMPO.
PDF232July 29, 2025