ChatPaper.aiChatPaper

Optimización de Políticas Adaptativas Suaves

Soft Adaptive Policy Optimization

November 25, 2025
Autores: Chang Gao, Chujie Zheng, Xiong-Hui Chen, Kai Dang, Shixuan Liu, Bowen Yu, An Yang, Shuai Bai, Jingren Zhou, Junyang Lin
cs.AI

Resumen

El aprendizaje por refuerzo (RL) desempeña un papel cada vez más importante en la mejora de las capacidades de razonamiento de los modelos de lenguaje grandes (LLMs), aunque la optimización de políticas estable y de alto rendimiento sigue siendo un reto. Los ratios de importancia a nivel de token suelen exhibir una alta varianza —un fenómeno que se ve agravado en los modelos Mixture-of-Experts—, lo que conduce a actualizaciones inestables. Los métodos existentes de optimización de políticas basados en grupos, como GSPO y GRPO, alivian este problema mediante el recorte duro (hard clipping), lo que dificulta mantener tanto la estabilidad como un aprendizaje efectivo. Proponemos la Optimización de Políticas Adaptativa Suave (SAPO), que reemplaza el recorte duro por una compuerta suave controlada por temperatura que atenúa adaptativamente las actualizaciones fuera de la política (off-policy) preservando las señales de aprendizaje útiles. En comparación con GSPO y GRPO, SAPO es coherente a nivel de secuencia y adaptable a nivel de token. Al igual que GSPO, SAPO mantiene la coherencia a nivel de secuencia, pero su compuerta suave forma una región de confianza continua que evita la frágil banda de recorte duro utilizada en GSPO. Cuando una secuencia contiene algunos tokens muy fuera de la política, GSPO suprime todos los gradientes para esa secuencia, mientras que SAPO reduce selectivamente el peso solo de los tokens problemáticos y preserva la señal de aprendizaje de aquellos cercanos a la política, mejorando la eficiencia muestral. Respecto a GRPO, SAPO reemplaza el recorte duro a nivel de token con una escala suave controlada por temperatura, permitiendo actualizaciones más informativas y estables. Los resultados empíricos en benchmarks de razonamiento matemático indican que SAPO exhibe una mayor estabilidad durante el entrenamiento y un mejor rendimiento Pass@1 con presupuestos de entrenamiento comparables. Además, empleamos SAPO para entrenar la serie de modelos Qwen3-VL, demostrando que SAPO produce ganancias de rendimiento consistentes en diversas tareas y diferentes tamaños de modelo. En general, SAPO proporciona una estrategia de optimización más fiable, escalable y efectiva para el entrenamiento con RL de los LLMs.
English
Reinforcement learning (RL) plays an increasingly important role in enhancing the reasoning capabilities of large language models (LLMs), yet stable and performant policy optimization remains challenging. Token-level importance ratios often exhibit high variance-a phenomenon exacerbated in Mixture-of-Experts models-leading to unstable updates. Existing group-based policy optimization methods, such as GSPO and GRPO, alleviate this problem via hard clipping, making it difficult to maintain both stability and effective learning. We propose Soft Adaptive Policy Optimization (SAPO), which replaces hard clipping with a smooth, temperature-controlled gate that adaptively attenuates off-policy updates while preserving useful learning signals. Compared with GSPO and GRPO, SAPO is both sequence-coherent and token-adaptive. Like GSPO, SAPO maintains sequence-level coherence, but its soft gating forms a continuous trust region that avoids the brittle hard clipping band used in GSPO. When a sequence contains a few highly off-policy tokens, GSPO suppresses all gradients for that sequence, whereas SAPO selectively down-weights only the offending tokens and preserves the learning signal from the near-on-policy ones, improving sample efficiency. Relative to GRPO, SAPO replaces hard token-level clipping with smooth, temperature-controlled scaling, enabling more informative and stable updates. Empirical results on mathematical reasoning benchmarks indicate that SAPO exhibits improved training stability and higher Pass@1 performance under comparable training budgets. Moreover, we employ SAPO to train the Qwen3-VL model series, demonstrating that SAPO yields consistent performance gains across diverse tasks and different model sizes. Overall, SAPO provides a more reliable, scalable, and effective optimization strategy for RL training of LLMs.
PDF313December 1, 2025