SPPO: Последовательный PPO для задач рассуждений с длинным горизонтом планирования
SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks
April 10, 2026
Авторы: Tianyi Wang, Yixia Li, Long Li, Yibiao Chen, Shaohan Huang, Yun Chen, Peng Li, Yang Liu, Guanhua Chen
cs.AI
Аннотация
Проксимальная оптимизация политик (PPO) играет ключевую роль в согласовании больших языковых моделей (LLM) для решения задач с верифицируемыми вознаграждениями. Однако стандартная PPO на уровне токенов сталкивается с трудностями в этой среде из-за нестабильности временного распределения заслуг на длинных горизонтах цепочек рассуждений (CoT) и непомерно высокой стоимости памяти для модели оценки. В то время как альтернативы без критика, такие как GRPO, смягчают эти проблемы, они несут значительные вычислительные затраты, требуя множественных сэмплов для оценки базового уровня, что серьезно ограничивает пропускную способность обучения. В данной статье мы представляем PPO на уровне последовательностей (SPPO) — масштабируемый алгоритм, который сочетает эффективность PPO по выборкам со стабильностью обновлений на основе результата. SPPO переформулирует процесс рассуждения как задачу контекстуального бандита на уровне последовательностей, используя разделенную скалярную функцию ценности для получения сигналов преимущества с низкой дисперсией без необходимости многократного сэмплирования. Многочисленные эксперименты на математических бенчмарках демонстрируют, что SPPO значительно превосходит стандартную PPO и соответствует производительности ресурсоемких групповых методов, предлагая экономичную основу для согласования LLM, выполняющих рассуждения.
English
Proximal Policy Optimization (PPO) is central to aligning Large Language Models (LLMs) in reasoning tasks with verifiable rewards. However, standard token-level PPO struggles in this setting due to the instability of temporal credit assignment over long Chain-of-Thought (CoT) horizons and the prohibitive memory cost of the value model. While critic-free alternatives like GRPO mitigate these issues, they incur significant computational overhead by requiring multiple samples for baseline estimation, severely limiting training throughput. In this paper, we introduce Sequence-Level PPO (SPPO), a scalable algorithm that harmonizes the sample efficiency of PPO with the stability of outcome-based updates. SPPO reformulates the reasoning process as a Sequence-Level Contextual Bandit problem, employing a decoupled scalar value function to derive low-variance advantage signals without multi-sampling. Extensive experiments on mathematical benchmarks demonstrate that SPPO significantly surpasses standard PPO and matches the performance of computation-heavy group-based methods, offering a resource-efficient framework for aligning reasoning LLMs.