Otimização de Política de Sequência de Grupo
Group Sequence Policy Optimization
July 24, 2025
Autores: Chujie Zheng, Shixuan Liu, Mingze Li, Xiong-Hui Chen, Bowen Yu, Chang Gao, Kai Dang, Yuqiong Liu, Rui Men, An Yang, Jingren Zhou, Junyang Lin
cs.AI
Resumo
Este artigo apresenta o Group Sequence Policy Optimization (GSPO), nosso algoritmo de aprendizado por reforço estável, eficiente e de alto desempenho para o treinamento de grandes modelos de linguagem. Diferentemente de algoritmos anteriores que adotam razões de importância em nível de token, o GSPO define a razão de importância com base na probabilidade da sequência e realiza recorte, recompensa e otimização em nível de sequência. Demonstramos que o GSPO alcança eficiência e desempenho superiores em comparação com o algoritmo GRPO, estabiliza notavelmente o treinamento de RL com Mixture-of-Experts (MoE) e tem o potencial de simplificar o design da infraestrutura de RL. Esses méritos do GSPO contribuíram para as notáveis melhorias nos mais recentes modelos Qwen3.
English
This paper introduces Group Sequence Policy Optimization (GSPO), our stable,
efficient, and performant reinforcement learning algorithm for training large
language models. Unlike previous algorithms that adopt token-level importance
ratios, GSPO defines the importance ratio based on sequence likelihood and
performs sequence-level clipping, rewarding, and optimization. We demonstrate
that GSPO achieves superior training efficiency and performance compared to the
GRPO algorithm, notably stabilizes Mixture-of-Experts (MoE) RL training, and
has the potential for simplifying the design of RL infrastructure. These merits
of GSPO have contributed to the remarkable improvements in the latest Qwen3
models.