Optimisation de Politique à Flux Unique
Single-stream Policy Optimization
September 16, 2025
papers.authors: Zhongwen Xu, Zihan Ding
cs.AI
papers.abstract
Nous revisitons l'optimisation par gradient de politique pour les modèles de langage de grande taille (LLMs) sous l'angle d'un flux unique. Les méthodes groupées prédominantes comme GRPO réduisent la variance grâce à des bases de référence calculées à la volée, mais souffrent de défauts critiques : des groupes dégénérés fréquents effacent les signaux d'apprentissage, et les barrières de synchronisation entravent l'évolutivité. Nous introduisons l'Optimisation de Politique à Flux Unique (SPO), qui élimine ces problèmes par conception. SPO remplace les bases de référence par groupe par un suivi de valeur persistant et adaptatif à la divergence KL, et normalise les avantages globalement sur l'ensemble du lot, fournissant un signal d'apprentissage stable et à faible variance pour chaque échantillon. Étant sans groupe, SPO permet un débit plus élevé et s'adapte efficacement dans des contextes à long horizon ou intégrant des outils où les temps de génération varient. De plus, le suivi de valeur persistant permet naturellement un curriculum adaptatif via un échantillonnage prioritaire. Les expériences utilisant Qwen3-8B montrent que SPO converge plus régulièrement et atteint une précision supérieure à GRPO, tout en éliminant les calculs gaspillés sur les groupes dégénérés. Les études d'ablation confirment que les gains de SPO découlent de son approche rigoureuse de l'estimation de la base de référence et de la normalisation des avantages, offrant une voie plus robuste et efficace pour le raisonnement des LLMs. Sur cinq benchmarks mathématiques difficiles avec Qwen3 8B, SPO améliore la moyenne maj@32 de +3,4 points de pourcentage (pp) par rapport à GRPO, grâce à des gains absolus substantiels sur des ensembles de données complexes, notamment +7,3 pp sur BRUMO 25, +4,4 pp sur AIME 25, +3,3 pp sur HMMT 25, et réalise des gains relatifs constants en pass@k sur les valeurs de k évaluées. Le succès de SPO remet en question la tendance actuelle d'ajouter une complexité incidente aux algorithmes d'apprentissage par renforcement, mettant en lumière une voie où les principes fondamentaux, et non les contournements architecturaux, propulsent la prochaine vague de progrès dans le raisonnement des LLMs.
English
We revisit policy-gradient optimization for Large Language Models (LLMs) from
a single-stream perspective. Prevailing group-based methods like GRPO reduce
variance with on-the-fly baselines but suffer from critical flaws: frequent
degenerate groups erase learning signals, and synchronization barriers hinder
scalability. We introduce Single-stream Policy Optimization (SPO), which
eliminates these issues by design. SPO replaces per-group baselines with a
persistent, KL-adaptive value tracker and normalizes advantages globally across
the batch, providing a stable, low-variance learning signal for every sample.
Being group-free, SPO enables higher throughput and scales effectively in
long-horizon or tool-integrated settings where generation times vary.
Furthermore, the persistent value tracker naturally enables an adaptive
curriculum via prioritized sampling. Experiments using Qwen3-8B show that SPO
converges more smoothly and attains higher accuracy than GRPO, while
eliminating computation wasted on degenerate groups. Ablation studies confirm
that SPO's gains stem from its principled approach to baseline estimation and
advantage normalization, offering a more robust and efficient path for LLM
reasoning. Across five hard math benchmarks with Qwen3 8B, SPO improves the
average maj@32 by +3.4 percentage points (pp) over GRPO, driven by substantial
absolute point gains on challenging datasets, including +7.3 pp on BRUMO 25,
+4.4 pp on AIME 25, +3.3 pp on HMMT 25, and achieves consistent relative gain
in pass@k across the evaluated k values. SPO's success challenges the
prevailing trend of adding incidental complexity to RL algorithms, highlighting
a path where fundamental principles, not architectural workarounds, drive the
next wave of progress in LLM reasoning.