Otimização de Políticas Adaptativas Suaves

Resumo

O aprendizado por reforço (RL) desempenha um papel cada vez mais importante na melhoria das capacidades de raciocínio de grandes modelos de linguagem (LLMs), no entanto, a otimização de políticas estável e de alto desempenho continua a ser um desafio. As razões de importância a nível de token frequentemente exibem alta variância - um fenômeno exacerbado em modelos Mixture-of-Experts - levando a atualizações instáveis. Os métodos existentes de otimização de políticas baseados em grupo, como GSPO e GRPO, aliviam este problema através de *clipping* rígido (*hard clipping*), dificultando a manutenção simultânea da estabilidade e da aprendizagem eficaz. Propomos a Otimização de Políticas Adaptativa Suave (SAPO), que substitui o *clipping* rígido por um *gate* suave, controlado por temperatura, que atenua adaptativamente as atualizações *off-policy* enquanto preserva os sinais de aprendizagem úteis. Em comparação com GSPO e GRPO, o SAPO é simultaneamente coerente a nível de sequência e adaptativo a nível de token. Tal como o GSPO, o SAPO mantém a coerência a nível de sequência, mas o seu *gating* suave forma uma região de confiança contínua que evita a banda de *clipping* rígido e frágil utilizada no GSPO. Quando uma sequência contém alguns tokens altamente *off-policy*, o GSPO suprime todos os gradientes para essa sequência, enquanto o SAPO reduz seletivamente o peso apenas dos tokens problemáticos e preserva o sinal de aprendizagem dos que estão próximos da política (*near-on-policy*), melhorando a eficiência da amostragem. Em relação ao GRPO, o SAPO substitui o *clipping* rígido a nível de token por um escalonamento suave e controlado por temperatura, permitindo atualizações mais informativas e estáveis. Resultados empíricos em benchmarks de raciocínio matemático indicam que o SAPO exibe maior estabilidade de treino e maior desempenho Pass@1 sob orçamentos de treino comparáveis. Além disso, empregamos o SAPO para treinar a série de modelos Qwen3-VL, demonstrando que o SAPO produz ganhos de desempenho consistentes em diversas tarefas e diferentes tamanhos de modelo. Globalmente, o SAPO fornece uma estratégia de otimização mais confiável, escalável e eficaz para o treino de RL de LLMs.

English

Reinforcement learning (RL) plays an increasingly important role in enhancing the reasoning capabilities of large language models (LLMs), yet stable and performant policy optimization remains challenging. Token-level importance ratios often exhibit high variance-a phenomenon exacerbated in Mixture-of-Experts models-leading to unstable updates. Existing group-based policy optimization methods, such as GSPO and GRPO, alleviate this problem via hard clipping, making it difficult to maintain both stability and effective learning. We propose Soft Adaptive Policy Optimization (SAPO), which replaces hard clipping with a smooth, temperature-controlled gate that adaptively attenuates off-policy updates while preserving useful learning signals. Compared with GSPO and GRPO, SAPO is both sequence-coherent and token-adaptive. Like GSPO, SAPO maintains sequence-level coherence, but its soft gating forms a continuous trust region that avoids the brittle hard clipping band used in GSPO. When a sequence contains a few highly off-policy tokens, GSPO suppresses all gradients for that sequence, whereas SAPO selectively down-weights only the offending tokens and preserves the learning signal from the near-on-policy ones, improving sample efficiency. Relative to GRPO, SAPO replaces hard token-level clipping with smooth, temperature-controlled scaling, enabling more informative and stable updates. Empirical results on mathematical reasoning benchmarks indicate that SAPO exhibits improved training stability and higher Pass@1 performance under comparable training budgets. Moreover, we employ SAPO to train the Qwen3-VL model series, demonstrating that SAPO yields consistent performance gains across diverse tasks and different model sizes. Overall, SAPO provides a more reliable, scalable, and effective optimization strategy for RL training of LLMs.