ChatPaper.aiChatPaper

Геометрически-средняя оптимизация политик

Geometric-Mean Policy Optimization

July 28, 2025
Авторы: Yuzhong Zhao, Yue Liu, Junpeng Liu, Jingye Chen, Xun Wu, Yaru Hao, Tengchao Lv, Shaohan Huang, Lei Cui, Qixiang Ye, Fang Wan, Furu Wei
cs.AI

Аннотация

Последние достижения, такие как Group Relative Policy Optimization (GRPO), значительно улучшили способности крупных языковых моделей к рассуждению за счет оптимизации среднего арифметического наград на уровне токенов. Однако GRPO страдает от нестабильных обновлений политики при обработке токенов с выбросами в важности взвешенных наград, что проявляется в виде экстремальных коэффициентов важности выборки во время обучения, то есть соотношения между вероятностями выборки, присвоенными токену текущей и старой политиками. В данной работе мы предлагаем Geometric-Mean Policy Optimization (GMPO), стабилизированный вариант GRPO. Вместо оптимизации среднего арифметического GMPO максимизирует среднее геометрическое наград на уровне токенов, что по своей природе менее чувствительно к выбросам и поддерживает более стабильный диапазон коэффициентов важности выборки. Кроме того, мы предоставляем всесторонний теоретический и экспериментальный анализ, обосновывающий конструкцию и преимущества стабильности GMPO. Помимо улучшенной стабильности, GMPO-7B превосходит GRPO в среднем на 4,1% на нескольких математических тестах и на 1,4% на мультимодальном тесте рассуждений, включая AIME24, AMC, MATH500, OlympiadBench, Minerva и Geometry3K. Код доступен по адресу https://github.com/callsys/GMPO.
English
Recent advancements, such as Group Relative Policy Optimization (GRPO), have enhanced the reasoning capabilities of large language models by optimizing the arithmetic mean of token-level rewards. However, GRPO suffers from unstable policy updates when processing tokens with outlier importance-weighted rewards, which manifests as extreme importance sampling ratios during training, i.e., the ratio between the sampling probabilities assigned to a token by the current and old policies. In this work, we propose Geometric-Mean Policy Optimization (GMPO), a stabilized variant of GRPO. Instead of optimizing the arithmetic mean, GMPO maximizes the geometric mean of token-level rewards, which is inherently less sensitive to outliers and maintains a more stable range of importance sampling ratio. In addition, we provide comprehensive theoretical and experimental analysis to justify the design and stability benefits of GMPO. Beyond improved stability, GMPO-7B outperforms GRPO by an average of 4.1% on multiple mathematical benchmarks and 1.4% on multimodal reasoning benchmark, including AIME24, AMC, MATH500, OlympiadBench, Minerva, and Geometry3K. Code is available at https://github.com/callsys/GMPO.
PDF232July 29, 2025