ChatPaper.aiChatPaper

Ottimizzazione della Politica a Singolo Flusso

Single-stream Policy Optimization

September 16, 2025
Autori: Zhongwen Xu, Zihan Ding
cs.AI

Abstract

Riconsideriamo l'ottimizzazione basata su gradienti di politica (policy-gradient) per i Modelli Linguistici di Grande Dimensione (LLMs) da una prospettiva a flusso singolo. I metodi prevalenti basati su gruppi, come GRPO, riducono la varianza utilizzando baseline calcolati al volo, ma presentano difetti critici: gruppi degeneri frequenti cancellano i segnali di apprendimento, e le barriere di sincronizzazione ostacolano la scalabilità. Introduciamo l'Ottimizzazione di Politica a Flusso Singolo (SPO), che elimina questi problemi per progettazione. SPO sostituisce le baseline per gruppo con un tracciatore di valore persistente e adattivo alla KL, e normalizza i vantaggi globalmente attraverso il batch, fornendo un segnale di apprendimento stabile e a bassa varianza per ogni campione. Essendo privo di gruppi, SPO consente una maggiore produttività e scala efficacemente in contesti a lungo orizzonte o con integrazione di strumenti, dove i tempi di generazione variano. Inoltre, il tracciatore di valore persistente abilita naturalmente un curriculum adattivo tramite campionamento prioritario. Esperimenti condotti con Qwen3-8B dimostrano che SPO converge in modo più regolare e raggiunge una maggiore accuratezza rispetto a GRPO, eliminando al contempo il calcolo sprecato su gruppi degeneri. Studi di ablazione confermano che i vantaggi di SPO derivano dal suo approccio principiato alla stima delle baseline e alla normalizzazione dei vantaggi, offrendo un percorso più robusto ed efficiente per il ragionamento degli LLMs. Su cinque benchmark matematici complessi con Qwen3 8B, SPO migliora la media maj@32 di +3,4 punti percentuali (pp) rispetto a GRPO, guidato da sostanziali guadagni assoluti su dataset impegnativi, tra cui +7,3 pp su BRUMO 25, +4,4 pp su AIME 25, +3,3 pp su HMMT 25, e raggiunge un guadagno relativo costante in pass@k attraverso i valori di k valutati. Il successo di SPO sfida la tendenza prevalente di aggiungere complessità incidentale agli algoritmi di RL, evidenziando un percorso in cui i principi fondamentali, non gli espedienti architetturali, guidano la prossima ondata di progressi nel ragionamento degli LLMs.
English
We revisit policy-gradient optimization for Large Language Models (LLMs) from a single-stream perspective. Prevailing group-based methods like GRPO reduce variance with on-the-fly baselines but suffer from critical flaws: frequent degenerate groups erase learning signals, and synchronization barriers hinder scalability. We introduce Single-stream Policy Optimization (SPO), which eliminates these issues by design. SPO replaces per-group baselines with a persistent, KL-adaptive value tracker and normalizes advantages globally across the batch, providing a stable, low-variance learning signal for every sample. Being group-free, SPO enables higher throughput and scales effectively in long-horizon or tool-integrated settings where generation times vary. Furthermore, the persistent value tracker naturally enables an adaptive curriculum via prioritized sampling. Experiments using Qwen3-8B show that SPO converges more smoothly and attains higher accuracy than GRPO, while eliminating computation wasted on degenerate groups. Ablation studies confirm that SPO's gains stem from its principled approach to baseline estimation and advantage normalization, offering a more robust and efficient path for LLM reasoning. Across five hard math benchmarks with Qwen3 8B, SPO improves the average maj@32 by +3.4 percentage points (pp) over GRPO, driven by substantial absolute point gains on challenging datasets, including +7.3 pp on BRUMO 25, +4.4 pp on AIME 25, +3.3 pp on HMMT 25, and achieves consistent relative gain in pass@k across the evaluated k values. SPO's success challenges the prevailing trend of adding incidental complexity to RL algorithms, highlighting a path where fundamental principles, not architectural workarounds, drive the next wave of progress in LLM reasoning.
PDF333September 19, 2025