ChatPaper.aiChatPaper

Optimisation de Politique Adaptative Douce

Soft Adaptive Policy Optimization

November 25, 2025
papers.authors: Chang Gao, Chujie Zheng, Xiong-Hui Chen, Kai Dang, Shixuan Liu, Bowen Yu, An Yang, Shuai Bai, Jingren Zhou, Junyang Lin
cs.AI

papers.abstract

L'apprentissage par renforcement (RL) joue un rôle de plus en plus important pour améliorer les capacités de raisonnement des grands modèles de langage (LLM), mais l'optimisation stable et performante des politiques reste un défi. Les ratios d'importance au niveau des tokens présentent souvent une variance élevée - un phénomène exacerbé dans les modèles de type Mixture-of-Experts - conduisant à des mises à jour instables. Les méthodes d'optimisation de politique par groupe existantes, telles que GSPO et GRPO, atténuent ce problème via un écêtage dur, rendant difficile le maintien à la fois de la stabilité et d'un apprentissage efficace. Nous proposons l'Optimisation de Politique Adaptive et Douce (SAPO), qui remplace l'écêtage dur par une porte lisse, contrôlée par une température, qui atténue de manière adaptive les mises à jour hors-politique tout en préservant les signaux d'apprentissage utiles. Comparé à GSPO et GRPO, SAPO est à la fois cohérent au niveau de la séquence et adaptatif au niveau du token. Comme GSPO, SAPO maintient une cohérence au niveau séquentiel, mais son seuillage doux forme une région de confiance continue qui évite la bande d'écêtage dur et fragile utilisée dans GSPO. Lorsqu'une séquence contient quelques tokens fortement hors-politique, GSPO supprime tous les gradients pour cette séquence, tandis que SAPO réduit sélectivement le poids uniquement des tokens problématiques et préserve le signal d'apprentissage des tokens proches de la politique, améliorant ainsi l'efficacité de l'échantillonnage. Par rapport à GRPO, SAPO remplace l'écêtage dur au niveau du token par une mise à l'échelle lisse et contrôlée par température, permettant des mises à jour plus informatives et stables. Les résultats empiriques sur des benchmarks de raisonnement mathématique indiquent que SAPO présente une meilleure stabilité d'entraînement et de meilleures performances Pass@1 pour des budgets d'entraînement comparables. De plus, nous utilisons SAPO pour entraîner la série de modèles Qwen3-VL, démontrant que SAPO procure des gains de performance constants sur diverses tâches et pour différentes tailles de modèles. Globalement, SAPO offre une stratégie d'optimisation plus fiable, évolutive et efficace pour l'entraînement par RL des LLM.
English
Reinforcement learning (RL) plays an increasingly important role in enhancing the reasoning capabilities of large language models (LLMs), yet stable and performant policy optimization remains challenging. Token-level importance ratios often exhibit high variance-a phenomenon exacerbated in Mixture-of-Experts models-leading to unstable updates. Existing group-based policy optimization methods, such as GSPO and GRPO, alleviate this problem via hard clipping, making it difficult to maintain both stability and effective learning. We propose Soft Adaptive Policy Optimization (SAPO), which replaces hard clipping with a smooth, temperature-controlled gate that adaptively attenuates off-policy updates while preserving useful learning signals. Compared with GSPO and GRPO, SAPO is both sequence-coherent and token-adaptive. Like GSPO, SAPO maintains sequence-level coherence, but its soft gating forms a continuous trust region that avoids the brittle hard clipping band used in GSPO. When a sequence contains a few highly off-policy tokens, GSPO suppresses all gradients for that sequence, whereas SAPO selectively down-weights only the offending tokens and preserves the learning signal from the near-on-policy ones, improving sample efficiency. Relative to GRPO, SAPO replaces hard token-level clipping with smooth, temperature-controlled scaling, enabling more informative and stable updates. Empirical results on mathematical reasoning benchmarks indicate that SAPO exhibits improved training stability and higher Pass@1 performance under comparable training budgets. Moreover, we employ SAPO to train the Qwen3-VL model series, demonstrating that SAPO yields consistent performance gains across diverse tasks and different model sizes. Overall, SAPO provides a more reliable, scalable, and effective optimization strategy for RL training of LLMs.
PDF313December 1, 2025