Enkelvoudige-stroom Beleidsoptimalisatie

Samenvatting

We herzien policy-gradient optimalisatie voor Large Language Models (LLMs) vanuit een single-stream perspectief. Gangbare groep-gebaseerde methoden zoals GRPO verminderen variantie met on-the-fly baselines, maar lijden onder kritieke tekortkomingen: frequente gedegenereerde groepen wissen leer signalen, en synchronisatie barrières belemmeren schaalbaarheid. We introduceren Single-stream Policy Optimization (SPO), dat deze problemen bij ontwerp elimineert. SPO vervangt per-groep baselines met een persistente, KL-adaptieve waardetracker en normaliseert voordelen globaal over de batch, wat een stabiel, laag-variantie leersignaal biedt voor elk sample. Doordat het groep-vrij is, stelt SPO hogere doorvoer in staat en schaalt het effectief in lange-horizon of tool-geïntegreerde instellingen waar generatietijden variëren. Bovendien maakt de persistente waardetracker van nature een adaptief curriculum mogelijk via geprioriteerde sampling. Experimenten met Qwen3-8B tonen aan dat SPO soepeler convergeert en hogere nauwkeurigheid bereikt dan GRPO, terwijl het verspilde berekeningen op gedegenereerde groepen elimineert. Ablatiestudies bevestigen dat de winsten van SPO voortkomen uit zijn principiële aanpak van baseline schatting en voordeel normalisatie, wat een robuuster en efficiënter pad biedt voor LLM redenering. Over vijf uitdagende wiskunde benchmarks met Qwen3 8B, verbetert SPO de gemiddelde maj@32 met +3.4 procentpunten (pp) ten opzichte van GRPO, aangedreven door substantiële absolute puntwinsten op uitdagende datasets, waaronder +7.3 pp op BRUMO 25, +4.4 pp op AIME 25, +3.3 pp op HMMT 25, en behaalt consistente relatieve winst in pass@k over de geëvalueerde k waarden. Het succes van SPO daagt de heersende trend uit om incidentele complexiteit toe te voegen aan RL algoritmen, en benadrukt een pad waar fundamentele principes, niet architecturale omwegen, de volgende golf van vooruitgang in LLM redenering aandrijven.

English

We revisit policy-gradient optimization for Large Language Models (LLMs) from a single-stream perspective. Prevailing group-based methods like GRPO reduce variance with on-the-fly baselines but suffer from critical flaws: frequent degenerate groups erase learning signals, and synchronization barriers hinder scalability. We introduce Single-stream Policy Optimization (SPO), which eliminates these issues by design. SPO replaces per-group baselines with a persistent, KL-adaptive value tracker and normalizes advantages globally across the batch, providing a stable, low-variance learning signal for every sample. Being group-free, SPO enables higher throughput and scales effectively in long-horizon or tool-integrated settings where generation times vary. Furthermore, the persistent value tracker naturally enables an adaptive curriculum via prioritized sampling. Experiments using Qwen3-8B show that SPO converges more smoothly and attains higher accuracy than GRPO, while eliminating computation wasted on degenerate groups. Ablation studies confirm that SPO's gains stem from its principled approach to baseline estimation and advantage normalization, offering a more robust and efficient path for LLM reasoning. Across five hard math benchmarks with Qwen3 8B, SPO improves the average maj@32 by +3.4 percentage points (pp) over GRPO, driven by substantial absolute point gains on challenging datasets, including +7.3 pp on BRUMO 25, +4.4 pp on AIME 25, +3.3 pp on HMMT 25, and achieves consistent relative gain in pass@k across the evaluated k values. SPO's success challenges the prevailing trend of adding incidental complexity to RL algorithms, highlighting a path where fundamental principles, not architectural workarounds, drive the next wave of progress in LLM reasoning.