Zacht Adaptief Beleidsoptimalisatie
Soft Adaptive Policy Optimization
November 25, 2025
Auteurs: Chang Gao, Chujie Zheng, Xiong-Hui Chen, Kai Dang, Shixuan Liu, Bowen Yu, An Yang, Shuai Bai, Jingren Zhou, Junyang Lin
cs.AI
Samenvatting
Versterkend leren (RL) speelt een steeds belangrijkere rol bij het verbeteren van de redeneervermogens van grote taalmodellen (LLM's), maar stabiele en presterende beleidsoptimalisatie blijft een uitdaging. Belangverhoudingen op tokenniveau vertonen vaak een hoge variantie – een fenomeen dat verergert in Mixture-of-Experts-modellen – wat leidt tot onstabiele updates. Bestaande groepsgebaseerde beleidsoptimalisatiemethoden, zoals GSPO en GRPO, verlichten dit probleem via hard clipping, waardoor het moeilijk is om zowel stabiliteit als effectief leren te behouden. Wij stellen Zachte Adaptieve Beleidsoptimalisatie (SAPO) voor, die hard clipping vervangt door een gladde, temperatuur-gestuurde poort die off-policy updates adaptief dempt terwijl nuttige leersignalen behouden blijven.
In vergelijking met GSPO en GRPO is SAPO zowel sequentie-coherent als token-adaptief. Net als GSPO handhaaft SAPO coherentie op sequentieniveau, maar zijn zachte poortvorming creëert een continu vertrouwensgebied dat het brosse harde clipping-gebied van GSPO vermijdt. Wanneer een sequentie enkele sterk off-policy tokens bevat, onderdrukt GSPO alle gradients voor die sequentie, terwijl SAPO selectief alleen de problematische tokens afzwakt en het leersignaal van de bijna-on-policy tokens behoudt, wat de steekproefefficiëntie verbetert. Ten opzichte van GRPO vervangt SAPO harde token-level clipping door gladde, temperatuur-gestuurde schaling, waardoor informatievere en stabielere updates mogelijk zijn.
Empirische resultaten op wiskundige redeneerbenchmarks tonen aan dat SAPO een verbeterde trainstabiliteit en hogere Pass@1-prestaties vertoont bij vergelijkbare trainbudgets. Bovendien gebruiken we SAPO om de Qwen3-VL-modelreeks te trainen, wat aantoont dat SAPO consistente prestatieverbeteringen oplevert across diverse taken en verschillende modelgroottes. Over het algemeen biedt SAPO een betrouwbaardere, schaalbaardere en effectievere optimalisatiestrategie voor RL-training van LLM's.
English
Reinforcement learning (RL) plays an increasingly important role in enhancing the reasoning capabilities of large language models (LLMs), yet stable and performant policy optimization remains challenging. Token-level importance ratios often exhibit high variance-a phenomenon exacerbated in Mixture-of-Experts models-leading to unstable updates. Existing group-based policy optimization methods, such as GSPO and GRPO, alleviate this problem via hard clipping, making it difficult to maintain both stability and effective learning. We propose Soft Adaptive Policy Optimization (SAPO), which replaces hard clipping with a smooth, temperature-controlled gate that adaptively attenuates off-policy updates while preserving useful learning signals. Compared with GSPO and GRPO, SAPO is both sequence-coherent and token-adaptive. Like GSPO, SAPO maintains sequence-level coherence, but its soft gating forms a continuous trust region that avoids the brittle hard clipping band used in GSPO. When a sequence contains a few highly off-policy tokens, GSPO suppresses all gradients for that sequence, whereas SAPO selectively down-weights only the offending tokens and preserves the learning signal from the near-on-policy ones, improving sample efficiency. Relative to GRPO, SAPO replaces hard token-level clipping with smooth, temperature-controlled scaling, enabling more informative and stable updates. Empirical results on mathematical reasoning benchmarks indicate that SAPO exhibits improved training stability and higher Pass@1 performance under comparable training budgets. Moreover, we employ SAPO to train the Qwen3-VL model series, demonstrating that SAPO yields consistent performance gains across diverse tasks and different model sizes. Overall, SAPO provides a more reliable, scalable, and effective optimization strategy for RL training of LLMs.