SPPO: PPO em Nível de Sequência para Tarefas de Raciocínio de Longo Horizonte
SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks
April 10, 2026
Autores: Tianyi Wang, Yixia Li, Long Li, Yibiao Chen, Shaohan Huang, Yun Chen, Peng Li, Yang Liu, Guanhua Chen
cs.AI
Resumo
O Proximal Policy Optimization (PPO) é fundamental para o alinhamento de Grandes Modelos de Linguagem (LLMs) em tarefas de raciocínio com recompensas verificáveis. No entanto, o PPO padrão a nível de *token* enfrenta dificuldades neste contexto devido à instabilidade da atribuição de crédito temporal em horizontes longos de Cadeia de Pensamento (CoT) e ao custo proibitivo de memória do modelo de valor. Embora alternativas sem crítico, como o GRPO, mitiguem esses problemas, elas incorrem em uma sobrecarga computacional significativa por exigirem múltiplas amostras para estimativa da linha de base, limitando severamente a taxa de processamento no treinamento. Neste artigo, introduzimos o PPO a Nível de Sequência (SPPO), um algoritmo escalável que harmoniza a eficiência amostral do PPO com a estabilidade de atualizações baseadas em resultados. O SPPO reformula o processo de raciocínio como um Problema de Bandit Contextual a Nível de Sequência, empregando uma função de valor escalar desacoplada para derivar sinais de vantagem de baixa variância sem a necessidade de amostragem múltipla. Experimentos extensos em benchmarks matemáticos demonstram que o SPPO supera significativamente o PPO padrão e iguala o desempenho de métodos baseados em grupo, que são computacionalmente intensivos, oferecendo uma estrutura eficiente em recursos para o alinhamento de LLMs de raciocínio.
English
Proximal Policy Optimization (PPO) is central to aligning Large Language Models (LLMs) in reasoning tasks with verifiable rewards. However, standard token-level PPO struggles in this setting due to the instability of temporal credit assignment over long Chain-of-Thought (CoT) horizons and the prohibitive memory cost of the value model. While critic-free alternatives like GRPO mitigate these issues, they incur significant computational overhead by requiring multiple samples for baseline estimation, severely limiting training throughput. In this paper, we introduce Sequence-Level PPO (SPPO), a scalable algorithm that harmonizes the sample efficiency of PPO with the stability of outcome-based updates. SPPO reformulates the reasoning process as a Sequence-Level Contextual Bandit problem, employing a decoupled scalar value function to derive low-variance advantage signals without multi-sampling. Extensive experiments on mathematical benchmarks demonstrate that SPPO significantly surpasses standard PPO and matches the performance of computation-heavy group-based methods, offering a resource-efficient framework for aligning reasoning LLMs.