Geometrisch-Mittel-Politikoptimierung

papers.abstract

Jüngste Fortschritte, wie die Group Relative Policy Optimization (GRPO), haben die Fähigkeiten großer Sprachmodelle zur logischen Schlussfolgerung verbessert, indem sie das arithmetische Mittel der Token-Level-Belohnungen optimieren. Allerdings leidet GRPO unter instabilen Policy-Updates bei der Verarbeitung von Tokens mit Ausreißern in den gewichteten Belohnungen, was sich in extremen Importance-Sampling-Verhältnissen während des Trainings manifestiert, d. h. dem Verhältnis zwischen den Sampling-Wahrscheinlichkeiten, die einem Token von der aktuellen und der alten Policy zugewiesen werden. In dieser Arbeit schlagen wir die Geometric-Mean Policy Optimization (GMPO) vor, eine stabilisierte Variante von GRPO. Anstatt das arithmetische Mittel zu optimieren, maximiert GMPO das geometrische Mittel der Token-Level-Belohnungen, das von Natur aus weniger empfindlich gegenüber Ausreißern ist und einen stabileren Bereich des Importance-Sampling-Verhältnisses beibehält. Darüber hinaus liefern wir eine umfassende theoretische und experimentelle Analyse, um das Design und die Stabilitätsvorteile von GMPO zu untermauern. Neben der verbesserten Stabilität übertrifft GMPO-7B GRPO im Durchschnitt um 4,1 % bei mehreren mathematischen Benchmarks und um 1,4 % bei einem multimodalen Reasoning-Benchmark, einschließlich AIME24, AMC, MATH500, OlympiadBench, Minerva und Geometry3K. Der Code ist verfügbar unter https://github.com/callsys/GMPO.

English

Recent advancements, such as Group Relative Policy Optimization (GRPO), have enhanced the reasoning capabilities of large language models by optimizing the arithmetic mean of token-level rewards. However, GRPO suffers from unstable policy updates when processing tokens with outlier importance-weighted rewards, which manifests as extreme importance sampling ratios during training, i.e., the ratio between the sampling probabilities assigned to a token by the current and old policies. In this work, we propose Geometric-Mean Policy Optimization (GMPO), a stabilized variant of GRPO. Instead of optimizing the arithmetic mean, GMPO maximizes the geometric mean of token-level rewards, which is inherently less sensitive to outliers and maintains a more stable range of importance sampling ratio. In addition, we provide comprehensive theoretical and experimental analysis to justify the design and stability benefits of GMPO. Beyond improved stability, GMPO-7B outperforms GRPO by an average of 4.1% on multiple mathematical benchmarks and 1.4% on multimodal reasoning benchmark, including AIME24, AMC, MATH500, OlympiadBench, Minerva, and Geometry3K. Code is available at https://github.com/callsys/GMPO.