Otimização de Política de Fluxo Único

Resumo

Revisitamos a otimização de gradiente de política para Modelos de Linguagem de Grande Escala (LLMs) a partir de uma perspectiva de fluxo único. Métodos predominantes baseados em grupos, como o GRPO, reduzem a variância com baselines calculados em tempo real, mas sofrem com falhas críticas: grupos degenerados frequentes apagam os sinais de aprendizado, e barreiras de sincronização prejudicam a escalabilidade. Introduzimos a Otimização de Política de Fluxo Único (SPO), que elimina esses problemas por design. O SPO substitui os baselines por grupo por um rastreador de valor persistente e adaptativo ao KL, além de normalizar as vantagens globalmente em todo o lote, fornecendo um sinal de aprendizado estável e de baixa variância para cada amostra. Por ser livre de grupos, o SPO permite maior taxa de transferência e escala de forma eficaz em cenários de longo horizonte ou com integração de ferramentas, onde os tempos de geração variam. Além disso, o rastreador de valor persistente habilita naturalmente um currículo adaptativo por meio de amostragem priorizada. Experimentos com o Qwen3-8B mostram que o SPO converge de forma mais suave e atinge maior precisão do que o GRPO, ao mesmo tempo que elimina o desperdício de computação em grupos degenerados. Estudos de ablação confirmam que os ganhos do SPO decorrem de sua abordagem fundamentada na estimativa de baseline e na normalização de vantagens, oferecendo um caminho mais robusto e eficiente para o raciocínio de LLMs. Em cinco benchmarks difíceis de matemática com o Qwen3-8B, o SPO melhora a média maj@32 em +3,4 pontos percentuais (pp) em relação ao GRPO, impulsionado por ganhos absolutos substanciais em conjuntos de dados desafiadores, incluindo +7,3 pp no BRUMO 25, +4,4 pp no AIME 25, +3,3 pp no HMMT 25, e alcança ganhos relativos consistentes em pass@k em todos os valores de k avaliados. O sucesso do SPO desafia a tendência predominante de adicionar complexidade incidental a algoritmos de RL, destacando um caminho onde princípios fundamentais, e não soluções arquiteturais, impulsionam a próxima onda de progresso no raciocínio de LLMs.

English

We revisit policy-gradient optimization for Large Language Models (LLMs) from a single-stream perspective. Prevailing group-based methods like GRPO reduce variance with on-the-fly baselines but suffer from critical flaws: frequent degenerate groups erase learning signals, and synchronization barriers hinder scalability. We introduce Single-stream Policy Optimization (SPO), which eliminates these issues by design. SPO replaces per-group baselines with a persistent, KL-adaptive value tracker and normalizes advantages globally across the batch, providing a stable, low-variance learning signal for every sample. Being group-free, SPO enables higher throughput and scales effectively in long-horizon or tool-integrated settings where generation times vary. Furthermore, the persistent value tracker naturally enables an adaptive curriculum via prioritized sampling. Experiments using Qwen3-8B show that SPO converges more smoothly and attains higher accuracy than GRPO, while eliminating computation wasted on degenerate groups. Ablation studies confirm that SPO's gains stem from its principled approach to baseline estimation and advantage normalization, offering a more robust and efficient path for LLM reasoning. Across five hard math benchmarks with Qwen3 8B, SPO improves the average maj@32 by +3.4 percentage points (pp) over GRPO, driven by substantial absolute point gains on challenging datasets, including +7.3 pp on BRUMO 25, +4.4 pp on AIME 25, +3.3 pp on HMMT 25, and achieves consistent relative gain in pass@k across the evaluated k values. SPO's success challenges the prevailing trend of adding incidental complexity to RL algorithms, highlighting a path where fundamental principles, not architectural workarounds, drive the next wave of progress in LLM reasoning.