ChatPaper.aiChatPaper

Ottimizzazione delle Politiche con Media Geometrica

Geometric-Mean Policy Optimization

July 28, 2025
Autori: Yuzhong Zhao, Yue Liu, Junpeng Liu, Jingye Chen, Xun Wu, Yaru Hao, Tengchao Lv, Shaohan Huang, Lei Cui, Qixiang Ye, Fang Wan, Furu Wei
cs.AI

Abstract

I recenti progressi, come l'ottimizzazione delle politiche relative ai gruppi (Group Relative Policy Optimization, GRPO), hanno migliorato le capacità di ragionamento dei modelli linguistici di grandi dimensioni ottimizzando la media aritmetica delle ricompense a livello di token. Tuttavia, GRPO soffre di aggiornamenti instabili delle politiche durante l'elaborazione di token con ricompense ponderate dall'importanza anomale, che si manifestano come rapporti di campionamento dell'importanza estremi durante l'addestramento, ovvero il rapporto tra le probabilità di campionamento assegnate a un token dalle politiche corrente e precedente. In questo lavoro, proponiamo l'ottimizzazione delle politiche basata sulla media geometrica (Geometric-Mean Policy Optimization, GMPO), una variante stabilizzata di GRPO. Invece di ottimizzare la media aritmetica, GMPO massimizza la media geometrica delle ricompense a livello di token, che è intrinsecamente meno sensibile ai valori anomali e mantiene un intervallo più stabile del rapporto di campionamento dell'importanza. Inoltre, forniamo un'analisi teorica e sperimentale completa per giustificare la progettazione e i benefici di stabilità di GMPO. Oltre a una maggiore stabilità, GMPO-7B supera GRPO in media del 4,1% su più benchmark matematici e dell'1,4% su benchmark di ragionamento multimodale, tra cui AIME24, AMC, MATH500, OlympiadBench, Minerva e Geometry3K. Il codice è disponibile all'indirizzo https://github.com/callsys/GMPO.
English
Recent advancements, such as Group Relative Policy Optimization (GRPO), have enhanced the reasoning capabilities of large language models by optimizing the arithmetic mean of token-level rewards. However, GRPO suffers from unstable policy updates when processing tokens with outlier importance-weighted rewards, which manifests as extreme importance sampling ratios during training, i.e., the ratio between the sampling probabilities assigned to a token by the current and old policies. In this work, we propose Geometric-Mean Policy Optimization (GMPO), a stabilized variant of GRPO. Instead of optimizing the arithmetic mean, GMPO maximizes the geometric mean of token-level rewards, which is inherently less sensitive to outliers and maintains a more stable range of importance sampling ratio. In addition, we provide comprehensive theoretical and experimental analysis to justify the design and stability benefits of GMPO. Beyond improved stability, GMPO-7B outperforms GRPO by an average of 4.1% on multiple mathematical benchmarks and 1.4% on multimodal reasoning benchmark, including AIME24, AMC, MATH500, OlympiadBench, Minerva, and Geometry3K. Code is available at https://github.com/callsys/GMPO.
PDF302July 29, 2025