ChatPaper.aiChatPaper

Gruppen-Sequenz-Politikoptimierung

Group Sequence Policy Optimization

July 24, 2025
papers.authors: Chujie Zheng, Shixuan Liu, Mingze Li, Xiong-Hui Chen, Bowen Yu, Chang Gao, Kai Dang, Yuqiong Liu, Rui Men, An Yang, Jingren Zhou, Junyang Lin
cs.AI

papers.abstract

Dieses Papier stellt Group Sequence Policy Optimization (GSPO) vor, unseren stabilen, effizienten und leistungsstarken Reinforcement-Learning-Algorithmus für das Training großer Sprachmodelle. Im Gegensatz zu früheren Algorithmen, die Token-basierte Wichtigkeitsverhältnisse verwenden, definiert GSPO das Wichtigkeitsverhältnis basierend auf der Sequenzwahrscheinlichkeit und führt Sequenz-basiertes Clipping, Belohnung und Optimierung durch. Wir zeigen, dass GSPO eine überlegene Trainingsleistung und Effizienz im Vergleich zum GRPO-Algorithmus erreicht, insbesondere die Mixture-of-Experts (MoE) RL-Trainings stabilisiert und das Potenzial besitzt, das Design von RL-Infrastrukturen zu vereinfachen. Diese Vorteile von GSPO haben zu den bemerkenswerten Verbesserungen in den neuesten Qwen3-Modellen beigetragen.
English
This paper introduces Group Sequence Policy Optimization (GSPO), our stable, efficient, and performant reinforcement learning algorithm for training large language models. Unlike previous algorithms that adopt token-level importance ratios, GSPO defines the importance ratio based on sequence likelihood and performs sequence-level clipping, rewarding, and optimization. We demonstrate that GSPO achieves superior training efficiency and performance compared to the GRPO algorithm, notably stabilizes Mixture-of-Experts (MoE) RL training, and has the potential for simplifying the design of RL infrastructure. These merits of GSPO have contributed to the remarkable improvements in the latest Qwen3 models.
PDF25715July 25, 2025