Gruppen-Sequenz-Politikoptimierung

papers.abstract

Dieses Papier stellt Group Sequence Policy Optimization (GSPO) vor, unseren stabilen, effizienten und leistungsstarken Reinforcement-Learning-Algorithmus für das Training großer Sprachmodelle. Im Gegensatz zu früheren Algorithmen, die Token-basierte Wichtigkeitsverhältnisse verwenden, definiert GSPO das Wichtigkeitsverhältnis basierend auf der Sequenzwahrscheinlichkeit und führt Sequenz-basiertes Clipping, Belohnung und Optimierung durch. Wir zeigen, dass GSPO eine überlegene Trainingsleistung und Effizienz im Vergleich zum GRPO-Algorithmus erreicht, insbesondere die Mixture-of-Experts (MoE) RL-Trainings stabilisiert und das Potenzial besitzt, das Design von RL-Infrastrukturen zu vereinfachen. Diese Vorteile von GSPO haben zu den bemerkenswerten Verbesserungen in den neuesten Qwen3-Modellen beigetragen.

English

This paper introduces Group Sequence Policy Optimization (GSPO), our stable, efficient, and performant reinforcement learning algorithm for training large language models. Unlike previous algorithms that adopt token-level importance ratios, GSPO defines the importance ratio based on sequence likelihood and performs sequence-level clipping, rewarding, and optimization. We demonstrate that GSPO achieves superior training efficiency and performance compared to the GRPO algorithm, notably stabilizes Mixture-of-Experts (MoE) RL training, and has the potential for simplifying the design of RL infrastructure. These merits of GSPO have contributed to the remarkable improvements in the latest Qwen3 models.