ChatPaper.aiChatPaper

Optimisation de Politique de Séquence de Groupes

Group Sequence Policy Optimization

July 24, 2025
papers.authors: Chujie Zheng, Shixuan Liu, Mingze Li, Xiong-Hui Chen, Bowen Yu, Chang Gao, Kai Dang, Yuqiong Liu, Rui Men, An Yang, Jingren Zhou, Junyang Lin
cs.AI

papers.abstract

Cet article présente l'Optimisation de Politique de Séquence de Groupe (GSPO), notre algorithme d'apprentissage par renforcement stable, efficace et performant pour l'entraînement de grands modèles de langage. Contrairement aux algorithmes précédents qui adoptent des ratios d'importance au niveau des tokens, GSPO définit le ratio d'importance en fonction de la vraisemblance des séquences et effectue un découpage, une récompense et une optimisation au niveau des séquences. Nous démontrons que GSPO atteint une efficacité et une performance d'entraînement supérieures par rapport à l'algorithme GRPO, stabilise notablement l'entraînement par renforcement des Mixtures-of-Experts (MoE), et a le potentiel de simplifier la conception de l'infrastructure d'apprentissage par renforcement. Ces mérites de GSPO ont contribué aux améliorations remarquables des derniers modèles Qwen3.
English
This paper introduces Group Sequence Policy Optimization (GSPO), our stable, efficient, and performant reinforcement learning algorithm for training large language models. Unlike previous algorithms that adopt token-level importance ratios, GSPO defines the importance ratio based on sequence likelihood and performs sequence-level clipping, rewarding, and optimization. We demonstrate that GSPO achieves superior training efficiency and performance compared to the GRPO algorithm, notably stabilizes Mixture-of-Experts (MoE) RL training, and has the potential for simplifying the design of RL infrastructure. These merits of GSPO have contributed to the remarkable improvements in the latest Qwen3 models.
PDF25715July 25, 2025