Оптимизация политики последовательности групп
Group Sequence Policy Optimization
July 24, 2025
Авторы: Chujie Zheng, Shixuan Liu, Mingze Li, Xiong-Hui Chen, Bowen Yu, Chang Gao, Kai Dang, Yuqiong Liu, Rui Men, An Yang, Jingren Zhou, Junyang Lin
cs.AI
Аннотация
В данной статье представлен Group Sequence Policy Optimization (GSPO) — наш стабильный, эффективный и производительный алгоритм обучения с подкреплением для тренировки больших языковых моделей. В отличие от предыдущих алгоритмов, которые используют коэффициенты важности на уровне токенов, GSPO определяет коэффициент важности на основе вероятности последовательности и выполняет обрезку, вознаграждение и оптимизацию на уровне последовательностей. Мы демонстрируем, что GSPO достигает превосходной эффективности и производительности обучения по сравнению с алгоритмом GRPO, значительно стабилизирует обучение с подкреплением в моделях Mixture-of-Experts (MoE) и имеет потенциал для упрощения проектирования инфраструктуры обучения с подкреплением. Эти достоинства GSPO способствовали значительным улучшениям в последних моделях Qwen3.
English
This paper introduces Group Sequence Policy Optimization (GSPO), our stable,
efficient, and performant reinforcement learning algorithm for training large
language models. Unlike previous algorithms that adopt token-level importance
ratios, GSPO defines the importance ratio based on sequence likelihood and
performs sequence-level clipping, rewarding, and optimization. We demonstrate
that GSPO achieves superior training efficiency and performance compared to the
GRPO algorithm, notably stabilizes Mixture-of-Experts (MoE) RL training, and
has the potential for simplifying the design of RL infrastructure. These merits
of GSPO have contributed to the remarkable improvements in the latest Qwen3
models.