ChatPaper.aiChatPaper

Ottimizzazione Adattiva delle Politiche Soft

Soft Adaptive Policy Optimization

November 25, 2025
Autori: Chang Gao, Chujie Zheng, Xiong-Hui Chen, Kai Dang, Shixuan Liu, Bowen Yu, An Yang, Shuai Bai, Jingren Zhou, Junyang Lin
cs.AI

Abstract

L'apprendimento per rinforzo (RL) svolge un ruolo sempre più importante nel potenziare le capacità di ragionamento dei grandi modelli linguistici (LLM), ma un'ottimizzazione della politica stabile e performante rimane una sfida. I rapporti di importanza a livello di token spesso presentano un'elevata varianza - un fenomeno esacerbato nei modelli Mixture-of-Experts - che porta ad aggiornamenti instabili. I metodi esistenti di ottimizzazione della politica basati su gruppi, come GSPO e GRPO, alleviano questo problema tramite un hard clipping, rendendo difficile mantenere sia la stabilità che un apprendimento efficace. Proponiamo la Soft Adaptive Policy Optimization (SAPO), che sostituisce l'hard clipping con un gate controllato da temperatura, liscio, che attenua adattivamente gli aggiornamenti off-policy preservando i segnali di apprendimento utili. Rispetto a GSPO e GRPO, SAPO è sia coerente a livello di sequenza che adattivo a livello di token. Come GSPO, SAPO mantiene la coerenza a livello di sequenza, ma il suo soft gating forma una regione di trust continua che evita la fragile banda di hard clipping utilizzata in GSPO. Quando una sequenza contiene alcuni token fortemente off-policy, GSPO sopprime tutti i gradienti per quella sequenza, mentre SAPO riduce selettivamente il peso solo dei token problematici e preserva il segnale di apprendimento di quelli near-on-policy, migliorando l'efficienza campionaria. Rispetto a GRPO, SAPO sostituisce l'hard clipping a livello di token con un ridimensionamento liscio e controllato dalla temperatura, consentendo aggiornamenti più informativi e stabili. I risultati empirici su benchmark di ragionamento matematico indicano che SAPO mostra una stabilità di addestramento migliorata e prestazioni Pass@1 superiori con budget di addestramento comparabili. Inoltre, abbiamo impiegato SAPO per addestrare la serie di modelli Qwen3-VL, dimostrando che SAPO produce guadagni prestazionali consistenti su compiti diversi e con diverse dimensioni del modello. Nel complesso, SAPO fornisce una strategia di ottimizzazione più affidabile, scalabile ed efficace per l'addestramento RL degli LLM.
English
Reinforcement learning (RL) plays an increasingly important role in enhancing the reasoning capabilities of large language models (LLMs), yet stable and performant policy optimization remains challenging. Token-level importance ratios often exhibit high variance-a phenomenon exacerbated in Mixture-of-Experts models-leading to unstable updates. Existing group-based policy optimization methods, such as GSPO and GRPO, alleviate this problem via hard clipping, making it difficult to maintain both stability and effective learning. We propose Soft Adaptive Policy Optimization (SAPO), which replaces hard clipping with a smooth, temperature-controlled gate that adaptively attenuates off-policy updates while preserving useful learning signals. Compared with GSPO and GRPO, SAPO is both sequence-coherent and token-adaptive. Like GSPO, SAPO maintains sequence-level coherence, but its soft gating forms a continuous trust region that avoids the brittle hard clipping band used in GSPO. When a sequence contains a few highly off-policy tokens, GSPO suppresses all gradients for that sequence, whereas SAPO selectively down-weights only the offending tokens and preserves the learning signal from the near-on-policy ones, improving sample efficiency. Relative to GRPO, SAPO replaces hard token-level clipping with smooth, temperature-controlled scaling, enabling more informative and stable updates. Empirical results on mathematical reasoning benchmarks indicate that SAPO exhibits improved training stability and higher Pass@1 performance under comparable training budgets. Moreover, we employ SAPO to train the Qwen3-VL model series, demonstrating that SAPO yields consistent performance gains across diverse tasks and different model sizes. Overall, SAPO provides a more reliable, scalable, and effective optimization strategy for RL training of LLMs.
PDF313December 1, 2025