ChatPaper.aiChatPaper

부드러운 적응 정책 최적화

Soft Adaptive Policy Optimization

November 25, 2025
저자: Chang Gao, Chujie Zheng, Xiong-Hui Chen, Kai Dang, Shixuan Liu, Bowen Yu, An Yang, Shuai Bai, Jingren Zhou, Junyang Lin
cs.AI

초록

강화 학습(RL)은 대규모 언어 모델(LLM)의 추론 능력 향상에 점점 더 중요한 역할을 하고 있지만, 안정적이고 높은 성능의 정책 최적화는 여전히 어려운 과제로 남아 있습니다. 토큰 수준 중요도 비율은 종종 높은 분산을 보이는데, 이 현상은 혼합 전문가(MoE) 모델에서 더욱 두드러져 불안정한 업데이트를 초래합니다. GSPO와 GRPO와 같은 기존의 그룹 기반 정책 최적화 방법은 하드 클리핑을 통해 이 문제를 완화하지만, 안정성과 효과적인 학습을 동시에 유지하기 어렵습니다. 우리는 하드 클리핑을 부드럽고 온도 제어 게이트로 대체하여 유용한 학습 신호를 보존하면서 오프-정책 업데이트를 적응적으로 감쇠하는 Soft Adaptive Policy Optimization(SAPO)을 제안합니다. GSPO 및 GRPO와 비교하여 SAPO는 시퀀스 일관성과 토큰 적응성을 모두 갖춥니다. GSPO처럼 SAPO는 시퀀스 수준 일관성을 유지하지만, 소프트 게이팅은 GSPO에서 사용하는 취약한 하드 클리핑 대역을 피하는 연속 신뢰 영역을 형성합니다. 시퀀스에 매우 오프-정책인 토큰이 소수 포함된 경우, GSPO는 해당 시퀀스의 모든 기울기를 억제하는 반면, SAPO는 문제가 되는 토큰만 선택적으로 가중치를 낮추고 온-정책에 가까운 토큰들의 학습 신호는 보존하여 샘플 효율성을 향상시킵니다. GRPO에 비해 SAPO는 하드 토큰-레벨 클리핑을 부드러운 온도 제어 스케일링으로 대체하여 더 많은 정보를 제공하고 안정적인 업데이트를 가능하게 합니다. 수학적 추론 벤치마크에 대한 실험 결과는 SAPO가 동등한 학습 예산 하에서 향상된 학습 안정성과 더 높은 Pass@1 성능을 보여줍니다. 더 나아가, 우리는 SAPO를 사용하여 Qwen3-VL 모델 시리즈를 학습시켜, SAPO가 다양한 과제와 다른 모델 크기에서 일관된 성능 향상을 가져온다는 것을 입증했습니다. 전반적으로 SAPO는 LLM의 RL 학습을 위한 더 안정적이고 확장 가능하며 효과적인 최적화 전략을 제공합니다.
English
Reinforcement learning (RL) plays an increasingly important role in enhancing the reasoning capabilities of large language models (LLMs), yet stable and performant policy optimization remains challenging. Token-level importance ratios often exhibit high variance-a phenomenon exacerbated in Mixture-of-Experts models-leading to unstable updates. Existing group-based policy optimization methods, such as GSPO and GRPO, alleviate this problem via hard clipping, making it difficult to maintain both stability and effective learning. We propose Soft Adaptive Policy Optimization (SAPO), which replaces hard clipping with a smooth, temperature-controlled gate that adaptively attenuates off-policy updates while preserving useful learning signals. Compared with GSPO and GRPO, SAPO is both sequence-coherent and token-adaptive. Like GSPO, SAPO maintains sequence-level coherence, but its soft gating forms a continuous trust region that avoids the brittle hard clipping band used in GSPO. When a sequence contains a few highly off-policy tokens, GSPO suppresses all gradients for that sequence, whereas SAPO selectively down-weights only the offending tokens and preserves the learning signal from the near-on-policy ones, improving sample efficiency. Relative to GRPO, SAPO replaces hard token-level clipping with smooth, temperature-controlled scaling, enabling more informative and stable updates. Empirical results on mathematical reasoning benchmarks indicate that SAPO exhibits improved training stability and higher Pass@1 performance under comparable training budgets. Moreover, we employ SAPO to train the Qwen3-VL model series, demonstrating that SAPO yields consistent performance gains across diverse tasks and different model sizes. Overall, SAPO provides a more reliable, scalable, and effective optimization strategy for RL training of LLMs.
PDF313December 1, 2025