ChatPaper.aiChatPaper

Weiches Adaptives Politikoptimierungsverfahren

Soft Adaptive Policy Optimization

November 25, 2025
papers.authors: Chang Gao, Chujie Zheng, Xiong-Hui Chen, Kai Dang, Shixuan Liu, Bowen Yu, An Yang, Shuai Bai, Jingren Zhou, Junyang Lin
cs.AI

papers.abstract

Reinforcement Learning (RL) spielt eine zunehmend wichtige Rolle bei der Verbesserung der Reasoning-Fähigkeiten von Large Language Models (LLMs), dennoch bleibt eine stabile und leistungsfähige Policy-Optimierung eine Herausforderung. Token-basierte Importance Ratios weisen oft eine hohe Varianz auf – ein Phänomen, das in Mixture-of-Experts-Modellen verstärkt auftritt – was zu instabilen Updates führt. Bestehende gruppenbasierte Policy-Optimierungsmethoden wie GSPO und GRPO mildern dieses Problem durch Hard Clipping, was es schwierig macht, sowohl Stabilität als auch effektives Lernen aufrechtzuerhalten. Wir schlagen Soft Adaptive Policy Optimization (SAPO) vor, das Hard Clipping durch ein glattes, temperaturabhängiges Gating ersetzt, das Off-Policy-Updates adaptiv dämpft, während nützliche Lernsignale erhalten bleiben. Im Vergleich zu GSPO und GRPO ist SAPO sowohl sequenzkohärent als auch tokenadaptiv. Wie GSPO bewahrt SAPO die Kohärenz auf Sequenzebene, aber sein weiches Gating bildet eine kontinuierliche Trust Region, die die spröde Hard-Clipping-Band von GSPO vermeidet. Wenn eine Sequenz einige stark Off-Policy-Token enthält, unterdrückt GSPO alle Gradienten für diese Sequenz, während SAPO nur die problematischen Token selektiv heruntergewichtet und das Lernsignal der nahezu On-Policy-Token bewahrt, was die Sample-Effizienz verbessert. Im Vergleich zu GRPO ersetzt SAPO hartes Token-Level-Clipping durch eine glatte, temperaturabhängige Skalierung, was informativere und stabilere Updates ermöglicht. Empirische Ergebnisse auf mathematischen Reasoning-Benchmarks zeigen, dass SAPO bei vergleichbaren Trainingsbudgets eine verbesserte Trainingsstabilität und eine höhere Pass@1-Leistung aufweist. Darüber hinaus setzen wir SAPO ein, um die Qwen3-VL-Modellreihe zu trainieren, und demonstrieren, dass SAPO konsistente Leistungssteigerungen über verschiedene Aufgaben und Modellgrößen hinweg erzielt. Insgesamt bietet SAPO eine zuverlässigere, skalierbarere und effektivere Optimierungsstrategie für das RL-Training von LLMs.
English
Reinforcement learning (RL) plays an increasingly important role in enhancing the reasoning capabilities of large language models (LLMs), yet stable and performant policy optimization remains challenging. Token-level importance ratios often exhibit high variance-a phenomenon exacerbated in Mixture-of-Experts models-leading to unstable updates. Existing group-based policy optimization methods, such as GSPO and GRPO, alleviate this problem via hard clipping, making it difficult to maintain both stability and effective learning. We propose Soft Adaptive Policy Optimization (SAPO), which replaces hard clipping with a smooth, temperature-controlled gate that adaptively attenuates off-policy updates while preserving useful learning signals. Compared with GSPO and GRPO, SAPO is both sequence-coherent and token-adaptive. Like GSPO, SAPO maintains sequence-level coherence, but its soft gating forms a continuous trust region that avoids the brittle hard clipping band used in GSPO. When a sequence contains a few highly off-policy tokens, GSPO suppresses all gradients for that sequence, whereas SAPO selectively down-weights only the offending tokens and preserves the learning signal from the near-on-policy ones, improving sample efficiency. Relative to GRPO, SAPO replaces hard token-level clipping with smooth, temperature-controlled scaling, enabling more informative and stable updates. Empirical results on mathematical reasoning benchmarks indicate that SAPO exhibits improved training stability and higher Pass@1 performance under comparable training budgets. Moreover, we employ SAPO to train the Qwen3-VL model series, demonstrating that SAPO yields consistent performance gains across diverse tasks and different model sizes. Overall, SAPO provides a more reliable, scalable, and effective optimization strategy for RL training of LLMs.
PDF313December 1, 2025