ChatPaper.aiChatPaper

グループシーケンスポリシー最適化

Group Sequence Policy Optimization

July 24, 2025
著者: Chujie Zheng, Shixuan Liu, Mingze Li, Xiong-Hui Chen, Bowen Yu, Chang Gao, Kai Dang, Yuqiong Liu, Rui Men, An Yang, Jingren Zhou, Junyang Lin
cs.AI

要旨

本論文では、大規模言語モデルの学習に向けた安定性、効率性、性能を兼ね備えた強化学習アルゴリズムであるGroup Sequence Policy Optimization(GSPO)を紹介する。従来のトークンレベルの重要度比率を採用するアルゴリズムとは異なり、GSPOはシーケンス尤度に基づいて重要度比率を定義し、シーケンスレベルのクリッピング、報酬付与、最適化を実行する。GSPOは、GRPOアルゴリズムと比較して優れた学習効率と性能を達成し、特にMixture-of-Experts(MoE)RL学習を安定化させ、RLインフラ設計の簡素化に寄与する可能性があることを示す。GSPOのこれらの利点は、最新のQwen3モデルにおける顕著な改善に貢献している。
English
This paper introduces Group Sequence Policy Optimization (GSPO), our stable, efficient, and performant reinforcement learning algorithm for training large language models. Unlike previous algorithms that adopt token-level importance ratios, GSPO defines the importance ratio based on sequence likelihood and performs sequence-level clipping, rewarding, and optimization. We demonstrate that GSPO achieves superior training efficiency and performance compared to the GRPO algorithm, notably stabilizes Mixture-of-Experts (MoE) RL training, and has the potential for simplifying the design of RL infrastructure. These merits of GSPO have contributed to the remarkable improvements in the latest Qwen3 models.
PDF25715July 25, 2025