Otimização de Política de Fluxo Único
Single-stream Policy Optimization
September 16, 2025
Autores: Zhongwen Xu, Zihan Ding
cs.AI
Resumo
Revisitamos a otimização de gradiente de política para Modelos de Linguagem de Grande Escala (LLMs) a partir de uma perspectiva de fluxo único. Métodos predominantes baseados em grupos, como o GRPO, reduzem a variância com baselines calculados em tempo real, mas sofrem com falhas críticas: grupos degenerados frequentes apagam os sinais de aprendizado, e barreiras de sincronização prejudicam a escalabilidade. Introduzimos a Otimização de Política de Fluxo Único (SPO), que elimina esses problemas por design. O SPO substitui os baselines por grupo por um rastreador de valor persistente e adaptativo ao KL, além de normalizar as vantagens globalmente em todo o lote, fornecendo um sinal de aprendizado estável e de baixa variância para cada amostra. Por ser livre de grupos, o SPO permite maior taxa de transferência e escala de forma eficaz em cenários de longo horizonte ou com integração de ferramentas, onde os tempos de geração variam. Além disso, o rastreador de valor persistente habilita naturalmente um currículo adaptativo por meio de amostragem priorizada. Experimentos com o Qwen3-8B mostram que o SPO converge de forma mais suave e atinge maior precisão do que o GRPO, ao mesmo tempo que elimina o desperdício de computação em grupos degenerados. Estudos de ablação confirmam que os ganhos do SPO decorrem de sua abordagem fundamentada na estimativa de baseline e na normalização de vantagens, oferecendo um caminho mais robusto e eficiente para o raciocínio de LLMs. Em cinco benchmarks difíceis de matemática com o Qwen3-8B, o SPO melhora a média maj@32 em +3,4 pontos percentuais (pp) em relação ao GRPO, impulsionado por ganhos absolutos substanciais em conjuntos de dados desafiadores, incluindo +7,3 pp no BRUMO 25, +4,4 pp no AIME 25, +3,3 pp no HMMT 25, e alcança ganhos relativos consistentes em pass@k em todos os valores de k avaliados. O sucesso do SPO desafia a tendência predominante de adicionar complexidade incidental a algoritmos de RL, destacando um caminho onde princípios fundamentais, e não soluções arquiteturais, impulsionam a próxima onda de progresso no raciocínio de LLMs.
English
We revisit policy-gradient optimization for Large Language Models (LLMs) from
a single-stream perspective. Prevailing group-based methods like GRPO reduce
variance with on-the-fly baselines but suffer from critical flaws: frequent
degenerate groups erase learning signals, and synchronization barriers hinder
scalability. We introduce Single-stream Policy Optimization (SPO), which
eliminates these issues by design. SPO replaces per-group baselines with a
persistent, KL-adaptive value tracker and normalizes advantages globally across
the batch, providing a stable, low-variance learning signal for every sample.
Being group-free, SPO enables higher throughput and scales effectively in
long-horizon or tool-integrated settings where generation times vary.
Furthermore, the persistent value tracker naturally enables an adaptive
curriculum via prioritized sampling. Experiments using Qwen3-8B show that SPO
converges more smoothly and attains higher accuracy than GRPO, while
eliminating computation wasted on degenerate groups. Ablation studies confirm
that SPO's gains stem from its principled approach to baseline estimation and
advantage normalization, offering a more robust and efficient path for LLM
reasoning. Across five hard math benchmarks with Qwen3 8B, SPO improves the
average maj@32 by +3.4 percentage points (pp) over GRPO, driven by substantial
absolute point gains on challenging datasets, including +7.3 pp on BRUMO 25,
+4.4 pp on AIME 25, +3.3 pp on HMMT 25, and achieves consistent relative gain
in pass@k across the evaluated k values. SPO's success challenges the
prevailing trend of adding incidental complexity to RL algorithms, highlighting
a path where fundamental principles, not architectural workarounds, drive the
next wave of progress in LLM reasoning.