SPPO: PPO a Livello di Sequenza per Compiti di Ragionamento a Lungo Orizzonte
SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks
April 10, 2026
Autori: Tianyi Wang, Yixia Li, Long Li, Yibiao Chen, Shaohan Huang, Yun Chen, Peng Li, Yang Liu, Guanhua Chen
cs.AI
Abstract
Il Proximal Policy Optimization (PPO) è fondamentale per l'allineamento dei Large Language Model (LLM) in compiti di ragionamento con ricompense verificabili. Tuttavia, il PPO standard a livello di token incontra difficoltà in questo contesto a causa dell'instabilità dell'assegnazione del credito temporale su orizzonti lunghi di Catena di Pensiero (CoT) e del costo di memoria proibitivo del modello di valore. Sebbene alternative prive di critico come il GRPO mitighino questi problemi, comportano un sovraccarico computazionale significativo richiedendo campioni multipli per la stima della baseline, limitando fortemente il throughput di addestramento. In questo articolo introduciamo il PPO a Livello di Sequenza (SPPO), un algoritmo scalabile che armonizza l'efficienza campionaria del PPO con la stabilità degli aggiornamenti basati sull'esito. SPPO riformula il processo di ragionamento come un problema di Bandito Contestuale a Livello di Sequenza, impiegando una funzione di valore scalare disaccoppiata per derivare segnali di vantaggio a bassa varianza senza multi-campionamento. Esperimenti estesi su benchmark matematici dimostrano che SPPO supera significativamente il PPO standard e eguaglia le prestazioni di metodi basati su gruppo ad alta intensità computazionale, offrendo un framework efficiente in termini di risorse per l'allineamento di LLM per il ragionamento.
English
Proximal Policy Optimization (PPO) is central to aligning Large Language Models (LLMs) in reasoning tasks with verifiable rewards. However, standard token-level PPO struggles in this setting due to the instability of temporal credit assignment over long Chain-of-Thought (CoT) horizons and the prohibitive memory cost of the value model. While critic-free alternatives like GRPO mitigate these issues, they incur significant computational overhead by requiring multiple samples for baseline estimation, severely limiting training throughput. In this paper, we introduce Sequence-Level PPO (SPPO), a scalable algorithm that harmonizes the sample efficiency of PPO with the stability of outcome-based updates. SPPO reformulates the reasoning process as a Sequence-Level Contextual Bandit problem, employing a decoupled scalar value function to derive low-variance advantage signals without multi-sampling. Extensive experiments on mathematical benchmarks demonstrate that SPPO significantly surpasses standard PPO and matches the performance of computation-heavy group-based methods, offering a resource-efficient framework for aligning reasoning LLMs.