ChatPaper.aiChatPaper

Optimización de Políticas de Flujo Único

Single-stream Policy Optimization

September 16, 2025
Autores: Zhongwen Xu, Zihan Ding
cs.AI

Resumen

Revisitamos la optimización de gradiente de políticas para Modelos de Lenguaje de Gran Escala (LLMs) desde una perspectiva de flujo único. Los métodos predominantes basados en grupos, como GRPO, reducen la varianza mediante líneas base calculadas sobre la marcha, pero adolecen de fallos críticos: los grupos degenerados frecuentes eliminan las señales de aprendizaje, y las barreras de sincronización dificultan la escalabilidad. Introducimos la Optimización de Políticas de Flujo Único (SPO), que elimina estos problemas por diseño. SPO reemplaza las líneas base por grupo con un rastreador de valor persistente y adaptable a KL, y normaliza las ventajas globalmente a través del lote, proporcionando una señal de aprendizaje estable y de baja varianza para cada muestra. Al no depender de grupos, SPO permite un mayor rendimiento y escala eficazmente en entornos de horizonte largo o con integración de herramientas, donde los tiempos de generación varían. Además, el rastreador de valor persistente habilita naturalmente un currículo adaptativo mediante muestreo prioritario. Los experimentos con Qwen3-8B muestran que SPO converge de manera más suave y alcanza una mayor precisión que GRPO, al tiempo que elimina el cómputo desperdiciado en grupos degenerados. Los estudios de ablación confirman que las mejoras de SPO se derivan de su enfoque fundamentado en la estimación de líneas base y la normalización de ventajas, ofreciendo un camino más robusto y eficiente para el razonamiento en LLMs. En cinco benchmarks difíciles de matemáticas con Qwen3 8B, SPO mejora el promedio maj@32 en +3.4 puntos porcentuales (pp) sobre GRPO, impulsado por ganancias absolutas sustanciales en conjuntos de datos desafiantes, incluyendo +7.3 pp en BRUMO 25, +4.4 pp en AIME 25, +3.3 pp en HMMT 25, y logra una ganancia relativa consistente en pass@k a través de los valores de k evaluados. El éxito de SPO cuestiona la tendencia predominante de añadir complejidad incidental a los algoritmos de RL, destacando un camino donde los principios fundamentales, no las soluciones arquitectónicas, impulsan la próxima ola de progreso en el razonamiento de LLMs.
English
We revisit policy-gradient optimization for Large Language Models (LLMs) from a single-stream perspective. Prevailing group-based methods like GRPO reduce variance with on-the-fly baselines but suffer from critical flaws: frequent degenerate groups erase learning signals, and synchronization barriers hinder scalability. We introduce Single-stream Policy Optimization (SPO), which eliminates these issues by design. SPO replaces per-group baselines with a persistent, KL-adaptive value tracker and normalizes advantages globally across the batch, providing a stable, low-variance learning signal for every sample. Being group-free, SPO enables higher throughput and scales effectively in long-horizon or tool-integrated settings where generation times vary. Furthermore, the persistent value tracker naturally enables an adaptive curriculum via prioritized sampling. Experiments using Qwen3-8B show that SPO converges more smoothly and attains higher accuracy than GRPO, while eliminating computation wasted on degenerate groups. Ablation studies confirm that SPO's gains stem from its principled approach to baseline estimation and advantage normalization, offering a more robust and efficient path for LLM reasoning. Across five hard math benchmarks with Qwen3 8B, SPO improves the average maj@32 by +3.4 percentage points (pp) over GRPO, driven by substantial absolute point gains on challenging datasets, including +7.3 pp on BRUMO 25, +4.4 pp on AIME 25, +3.3 pp on HMMT 25, and achieves consistent relative gain in pass@k across the evaluated k values. SPO's success challenges the prevailing trend of adding incidental complexity to RL algorithms, highlighting a path where fundamental principles, not architectural workarounds, drive the next wave of progress in LLM reasoning.
PDF231September 17, 2025