ChatPaper.aiChatPaper

Groepsvolgordebeleidoptimalisatie

Group Sequence Policy Optimization

July 24, 2025
Auteurs: Chujie Zheng, Shixuan Liu, Mingze Li, Xiong-Hui Chen, Bowen Yu, Chang Gao, Kai Dang, Yuqiong Liu, Rui Men, An Yang, Jingren Zhou, Junyang Lin
cs.AI

Samenvatting

Dit artikel introduceert Group Sequence Policy Optimization (GSPO), ons stabiele, efficiënte en krachtige reinforcement learning-algoritme voor het trainen van grote taalmodel(len). In tegenstelling tot eerdere algoritmen die token-level belangrijkheidsratio's hanteren, definieert GSPO de belangrijkheidsratio op basis van sequentiekans en voert het sequentieniveau-clipping, beloning en optimalisatie uit. We tonen aan dat GSPO superieure trainingsefficiëntie en prestaties bereikt in vergelijking met het GRPO-algoritme, Mixture-of-Experts (MoE) RL-training aanzienlijk stabiliseert, en het potentieel heeft om het ontwerp van RL-infrastructuur te vereenvoudigen. Deze verdiensten van GSPO hebben bijgedragen aan de opmerkelijke verbeteringen in de nieuwste Qwen3-modellen.
English
This paper introduces Group Sequence Policy Optimization (GSPO), our stable, efficient, and performant reinforcement learning algorithm for training large language models. Unlike previous algorithms that adopt token-level importance ratios, GSPO defines the importance ratio based on sequence likelihood and performs sequence-level clipping, rewarding, and optimization. We demonstrate that GSPO achieves superior training efficiency and performance compared to the GRPO algorithm, notably stabilizes Mixture-of-Experts (MoE) RL training, and has the potential for simplifying the design of RL infrastructure. These merits of GSPO have contributed to the remarkable improvements in the latest Qwen3 models.
PDF30616July 25, 2025