ChatPaper.aiChatPaper

Ottimizzazione delle Politiche di Sequenza di Gruppo

Group Sequence Policy Optimization

July 24, 2025
Autori: Chujie Zheng, Shixuan Liu, Mingze Li, Xiong-Hui Chen, Bowen Yu, Chang Gao, Kai Dang, Yuqiong Liu, Rui Men, An Yang, Jingren Zhou, Junyang Lin
cs.AI

Abstract

Questo articolo introduce il Group Sequence Policy Optimization (GSPO), il nostro algoritmo di apprendimento per rinforzo stabile, efficiente e performante per l'addestramento di modelli linguistici di grandi dimensioni. A differenza degli algoritmi precedenti che adottano rapporti di importanza a livello di token, il GSPO definisce il rapporto di importanza basandosi sulla probabilità di sequenza ed esegue il clipping, la ricompensa e l'ottimizzazione a livello di sequenza. Dimostriamo che il GSPO raggiunge una superiore efficienza e prestazioni di addestramento rispetto all'algoritmo GRPO, stabilizza in modo significativo l'addestramento RL con Mixture-of-Experts (MoE) e ha il potenziale per semplificare la progettazione dell'infrastruttura RL. Questi meriti del GSPO hanno contribuito ai notevoli miglioramenti nei più recenti modelli Qwen3.
English
This paper introduces Group Sequence Policy Optimization (GSPO), our stable, efficient, and performant reinforcement learning algorithm for training large language models. Unlike previous algorithms that adopt token-level importance ratios, GSPO defines the importance ratio based on sequence likelihood and performs sequence-level clipping, rewarding, and optimization. We demonstrate that GSPO achieves superior training efficiency and performance compared to the GRPO algorithm, notably stabilizes Mixture-of-Experts (MoE) RL training, and has the potential for simplifying the design of RL infrastructure. These merits of GSPO have contributed to the remarkable improvements in the latest Qwen3 models.
PDF25815July 25, 2025