ChatPaper.aiChatPaper

Einzelstrom-Policy-Optimierung

Single-stream Policy Optimization

September 16, 2025
papers.authors: Zhongwen Xu, Zihan Ding
cs.AI

papers.abstract

Wir untersuchen die Policy-Gradient-Optimierung für Large Language Models (LLMs) aus einer Single-Stream-Perspektive neu. Vorherrschende gruppenbasierte Methoden wie GRPO reduzieren die Varianz durch On-the-Fly-Baselines, leiden jedoch unter kritischen Schwächen: häufige degenerierte Gruppen löschen Lernsignale, und Synchronisationsbarrieren behindern die Skalierbarkeit. Wir führen Single-stream Policy Optimization (SPO) ein, das diese Probleme durch Design eliminiert. SPO ersetzt gruppenspezifische Baselines durch einen persistenten, KL-adaptiven Werttracker und normalisiert Vorteile global über den Batch hinweg, wodurch ein stabiles, varianzarmes Lernsignal für jede Stichprobe bereitgestellt wird. Da SPO gruppenfrei ist, ermöglicht es einen höheren Durchsatz und skaliert effektiv in langfristigen oder toolintegrierten Umgebungen, in denen die Generierungszeiten variieren. Darüber hinaus ermöglicht der persistente Werttracker auf natürliche Weise einen adaptiven Lehrplan durch priorisierte Stichproben. Experimente mit Qwen3-8B zeigen, dass SPO glatter konvergiert und eine höhere Genauigkeit als GRPO erreicht, während es gleichzeitig die auf degenerierte Gruppen verschwendete Rechenleistung eliminiert. Ablationsstudien bestätigen, dass die Vorteile von SPO auf seinem prinzipienbasierten Ansatz zur Baseline-Schätzung und Vorteilsnormalisierung beruhen, was einen robusteren und effizienteren Weg für das LLM-Schließen bietet. Über fünf schwierige mathematische Benchmarks mit Qwen3-8B hinweg verbessert SPO den durchschnittlichen maj@32 um +3,4 Prozentpunkte (pp) gegenüber GRPO, angetrieben durch erhebliche absolute Punktgewinne auf anspruchsvollen Datensätzen, einschließlich +7,3 pp auf BRUMO 25, +4,4 pp auf AIME 25, +3,3 pp auf HMMT 25, und erzielt konsistente relative Gewinne in pass@k über die bewerteten k-Werte hinweg. Der Erfolg von SPO stellt den vorherrschenden Trend in Frage, RL-Algorithmen mit zusätzlicher Komplexität zu versehen, und zeigt einen Weg auf, bei dem grundlegende Prinzipien, nicht architektonische Workarounds, die nächste Welle des Fortschritts im LLM-Schließen vorantreiben.
English
We revisit policy-gradient optimization for Large Language Models (LLMs) from a single-stream perspective. Prevailing group-based methods like GRPO reduce variance with on-the-fly baselines but suffer from critical flaws: frequent degenerate groups erase learning signals, and synchronization barriers hinder scalability. We introduce Single-stream Policy Optimization (SPO), which eliminates these issues by design. SPO replaces per-group baselines with a persistent, KL-adaptive value tracker and normalizes advantages globally across the batch, providing a stable, low-variance learning signal for every sample. Being group-free, SPO enables higher throughput and scales effectively in long-horizon or tool-integrated settings where generation times vary. Furthermore, the persistent value tracker naturally enables an adaptive curriculum via prioritized sampling. Experiments using Qwen3-8B show that SPO converges more smoothly and attains higher accuracy than GRPO, while eliminating computation wasted on degenerate groups. Ablation studies confirm that SPO's gains stem from its principled approach to baseline estimation and advantage normalization, offering a more robust and efficient path for LLM reasoning. Across five hard math benchmarks with Qwen3 8B, SPO improves the average maj@32 by +3.4 percentage points (pp) over GRPO, driven by substantial absolute point gains on challenging datasets, including +7.3 pp on BRUMO 25, +4.4 pp on AIME 25, +3.3 pp on HMMT 25, and achieves consistent relative gain in pass@k across the evaluated k values. SPO's success challenges the prevailing trend of adding incidental complexity to RL algorithms, highlighting a path where fundamental principles, not architectural workarounds, drive the next wave of progress in LLM reasoning.
PDF232September 17, 2025