ChatPaper.aiChatPaper

Мягкая адаптивная оптимизация политик

Soft Adaptive Policy Optimization

November 25, 2025
Авторы: Chang Gao, Chujie Zheng, Xiong-Hui Chen, Kai Dang, Shixuan Liu, Bowen Yu, An Yang, Shuai Bai, Jingren Zhou, Junyang Lin
cs.AI

Аннотация

Обучение с подкреплением (RL) играет все более важную роль в повышении способностей к рассуждению больших языковых моделей (LLM), однако стабильная и эффективная оптимизация политики остается сложной задачей. Коэффициенты важности на уровне токенов часто демонстрируют высокую дисперсию — явление, усугубляемое в моделях типа Mixture-of-Experts, — что приводит к нестабильным обновлениям. Существующие методы оптимизации политики на основе групп, такие как GSPO и GRPO, смягчают эту проблему с помощью жесткого ограничения (hard clipping), что затрудняет одновременное поддержание стабильности и эффективного обучения. Мы предлагаем метод мягкой адаптивной оптимизации политики (Soft Adaptive Policy Optimization, SAPO), который заменяет жесткое ограничение плавным, управляемым температурой вентилем, который адаптивно ослабляет обновления вне политики (off-policy), сохраняя при этом полезные сигналы обучения. По сравнению с GSPO и GRPO, SAPO является как последовательно-согласованным, так и адаптивным на уровне токенов. Подобно GSPO, SAPO сохраняет согласованность на уровне последовательности, но его мягкое вентилирование формирует непрерывную область доверия, которая избегает хрупкой полосы жесткого ограничения, используемой в GSPO. Когда последовательность содержит несколько токенов с сильным отклонением от политики, GSPO подавляет все градиенты для этой последовательности, тогда как SAPO выборочно понижает вес только проблемных токенов и сохраняет сигнал обучения от близких к политике, повышая эффективность использования данных. По сравнению с GRPO, SAPO заменяет жесткое ограничение на уровне токенов плавным масштабированием, управляемым температурой, что обеспечивает более информативные и стабильные обновления. Эмпирические результаты на эталонных тестах математических рассуждений показывают, что SAPO демонстрирует повышенную стабильность обучения и более высокую производительность Pass@1 при сопоставимых вычислительных бюджетах. Более того, мы используем SAPO для обучения серии моделей Qwen3-VL, демонстрируя, что SAPO обеспечивает последовательное улучшение производительности на разнообразных задачах и для моделей разного размера. В целом, SAPO предоставляет более надежную, масштабируемую и эффективную стратегию оптимизации для RL-обучения LLM.
English
Reinforcement learning (RL) plays an increasingly important role in enhancing the reasoning capabilities of large language models (LLMs), yet stable and performant policy optimization remains challenging. Token-level importance ratios often exhibit high variance-a phenomenon exacerbated in Mixture-of-Experts models-leading to unstable updates. Existing group-based policy optimization methods, such as GSPO and GRPO, alleviate this problem via hard clipping, making it difficult to maintain both stability and effective learning. We propose Soft Adaptive Policy Optimization (SAPO), which replaces hard clipping with a smooth, temperature-controlled gate that adaptively attenuates off-policy updates while preserving useful learning signals. Compared with GSPO and GRPO, SAPO is both sequence-coherent and token-adaptive. Like GSPO, SAPO maintains sequence-level coherence, but its soft gating forms a continuous trust region that avoids the brittle hard clipping band used in GSPO. When a sequence contains a few highly off-policy tokens, GSPO suppresses all gradients for that sequence, whereas SAPO selectively down-weights only the offending tokens and preserves the learning signal from the near-on-policy ones, improving sample efficiency. Relative to GRPO, SAPO replaces hard token-level clipping with smooth, temperature-controlled scaling, enabling more informative and stable updates. Empirical results on mathematical reasoning benchmarks indicate that SAPO exhibits improved training stability and higher Pass@1 performance under comparable training budgets. Moreover, we employ SAPO to train the Qwen3-VL model series, demonstrating that SAPO yields consistent performance gains across diverse tasks and different model sizes. Overall, SAPO provides a more reliable, scalable, and effective optimization strategy for RL training of LLMs.
PDF313December 1, 2025