ソフト適応ポリシー最適化
Soft Adaptive Policy Optimization
November 25, 2025
著者: Chang Gao, Chujie Zheng, Xiong-Hui Chen, Kai Dang, Shixuan Liu, Bowen Yu, An Yang, Shuai Bai, Jingren Zhou, Junyang Lin
cs.AI
要旨
強化学習(RL)は大規模言語モデル(LLM)の推論能力を高める上でますます重要な役割を果たしているが、安定した高性能な方策最適化は依然として課題である。トークンレベルの重要度比率は高い分散を示すことが多く、これはMixture-of-Expertsモデルにおいて顕著になり、不安定な更新を引き起こす。既存のグループベースの方策最適化手法(GSPOやGRPOなど)は、ハードクリッピングによってこの問題を緩和するが、安定性と効果的な学習の両立が困難である。本研究では、ソフト適応型方策最適化(SAPO)を提案する。SAPOはハードクリッピングを、滑らかで温度制御されたゲートに置き換え、有用な学習信号を保持しつつオフポリシー更新を適応的に減衰させる。GSPOおよびGRPOと比較して、SAPOはシーケンス整合性とトークン適応性の両方を備えている。GSPOと同様に、SAPOはシーケンスレベルの整合性を維持するが、そのソフトゲーティングは連続的な信頼領域を形成し、GSPOで用いられる脆いハードクリッピング帯域を回避する。シーケンスに少数の高度にオフポリシーなトークンが含まれる場合、GSPOはそのシーケンスの全ての勾配を抑制するが、SAPOは問題のあるトークンのみを選択的に重み付け減衰し、ニアオンポリシーなトークンからの学習信号を保持するため、サンプル効率が向上する。GRPOに対しては、SAPOはハードなトークンレベルクリッピングを滑らかな温度制御スケーリングに置き換え、より情報量が多く安定した更新を可能にする。数学的推論ベンチマークにおける実験結果は、SAPOが同等の学習予算下で、学習の安定性が向上し、より高いPass@1性能を示すことを示している。さらに、我々はSAPOをQwen3-VLモデルシリーズの学習に適用し、SAPOが多様なタスクおよび異なるモデルサイズにわたって一貫した性能向上をもたらすことを実証した。全体として、SAPOはLLMのRL学習のための、より信頼性が高く、スケーラブルで、効果的な最適化戦略を提供する。
English
Reinforcement learning (RL) plays an increasingly important role in enhancing the reasoning capabilities of large language models (LLMs), yet stable and performant policy optimization remains challenging. Token-level importance ratios often exhibit high variance-a phenomenon exacerbated in Mixture-of-Experts models-leading to unstable updates. Existing group-based policy optimization methods, such as GSPO and GRPO, alleviate this problem via hard clipping, making it difficult to maintain both stability and effective learning. We propose Soft Adaptive Policy Optimization (SAPO), which replaces hard clipping with a smooth, temperature-controlled gate that adaptively attenuates off-policy updates while preserving useful learning signals. Compared with GSPO and GRPO, SAPO is both sequence-coherent and token-adaptive. Like GSPO, SAPO maintains sequence-level coherence, but its soft gating forms a continuous trust region that avoids the brittle hard clipping band used in GSPO. When a sequence contains a few highly off-policy tokens, GSPO suppresses all gradients for that sequence, whereas SAPO selectively down-weights only the offending tokens and preserves the learning signal from the near-on-policy ones, improving sample efficiency. Relative to GRPO, SAPO replaces hard token-level clipping with smooth, temperature-controlled scaling, enabling more informative and stable updates. Empirical results on mathematical reasoning benchmarks indicate that SAPO exhibits improved training stability and higher Pass@1 performance under comparable training budgets. Moreover, we employ SAPO to train the Qwen3-VL model series, demonstrating that SAPO yields consistent performance gains across diverse tasks and different model sizes. Overall, SAPO provides a more reliable, scalable, and effective optimization strategy for RL training of LLMs.