グループシーケンスポリシー最適化
Group Sequence Policy Optimization
July 24, 2025
著者: Chujie Zheng, Shixuan Liu, Mingze Li, Xiong-Hui Chen, Bowen Yu, Chang Gao, Kai Dang, Yuqiong Liu, Rui Men, An Yang, Jingren Zhou, Junyang Lin
cs.AI
要旨
本論文では、大規模言語モデルの学習に向けた安定性、効率性、性能を兼ね備えた強化学習アルゴリズムであるGroup Sequence Policy Optimization(GSPO)を紹介する。従来のトークンレベルの重要度比率を採用するアルゴリズムとは異なり、GSPOはシーケンス尤度に基づいて重要度比率を定義し、シーケンスレベルのクリッピング、報酬付与、最適化を実行する。GSPOは、GRPOアルゴリズムと比較して優れた学習効率と性能を達成し、特にMixture-of-Experts(MoE)RL学習を安定化させ、RLインフラ設計の簡素化に寄与する可能性があることを示す。GSPOのこれらの利点は、最新のQwen3モデルにおける顕著な改善に貢献している。
English
This paper introduces Group Sequence Policy Optimization (GSPO), our stable,
efficient, and performant reinforcement learning algorithm for training large
language models. Unlike previous algorithms that adopt token-level importance
ratios, GSPO defines the importance ratio based on sequence likelihood and
performs sequence-level clipping, rewarding, and optimization. We demonstrate
that GSPO achieves superior training efficiency and performance compared to the
GRPO algorithm, notably stabilizes Mixture-of-Experts (MoE) RL training, and
has the potential for simplifying the design of RL infrastructure. These merits
of GSPO have contributed to the remarkable improvements in the latest Qwen3
models.