ChatPaper.aiChatPaper

Optimización de Políticas de Secuencia de Grupos

Group Sequence Policy Optimization

July 24, 2025
Autores: Chujie Zheng, Shixuan Liu, Mingze Li, Xiong-Hui Chen, Bowen Yu, Chang Gao, Kai Dang, Yuqiong Liu, Rui Men, An Yang, Jingren Zhou, Junyang Lin
cs.AI

Resumen

Este artículo presenta la Optimización de Política de Secuencia Grupal (GSPO, por sus siglas en inglés), nuestro algoritmo de aprendizaje por refuerzo estable, eficiente y de alto rendimiento para entrenar modelos de lenguaje a gran escala. A diferencia de algoritmos previos que adoptan ratios de importancia a nivel de token, GSPO define el ratio de importancia basado en la probabilidad de secuencia y realiza recorte, recompensa y optimización a nivel de secuencia. Demostramos que GSPO logra una eficiencia y rendimiento superiores en el entrenamiento en comparación con el algoritmo GRPO, estabiliza notablemente el entrenamiento de refuerzo en Mezcla de Expertos (MoE) y tiene el potencial de simplificar el diseño de la infraestructura de aprendizaje por refuerzo. Estas ventajas de GSPO han contribuido a las mejoras significativas en los últimos modelos Qwen3.
English
This paper introduces Group Sequence Policy Optimization (GSPO), our stable, efficient, and performant reinforcement learning algorithm for training large language models. Unlike previous algorithms that adopt token-level importance ratios, GSPO defines the importance ratio based on sequence likelihood and performs sequence-level clipping, rewarding, and optimization. We demonstrate that GSPO achieves superior training efficiency and performance compared to the GRPO algorithm, notably stabilizes Mixture-of-Experts (MoE) RL training, and has the potential for simplifying the design of RL infrastructure. These merits of GSPO have contributed to the remarkable improvements in the latest Qwen3 models.
PDF25715July 25, 2025