SPPO: Sequenzebenen-PPO für langfristige Denkaufgaben

Zusammenfassung

Proximale Policy-Optimierung (PPO) ist zentral für das Ausrichten großer Sprachmodelle (LLMs) bei Denkaufgaben mit überprüfbaren Belohnungen. Allerdings scheitert das standardmäßige token-level PPO in diesem Szenario aufgrund der Instabilität der zeitlichen Kreditzuweisung über lange Chain-of-Thought (CoT)-Horizonte und der prohibitiv hohen Speicherkosten des Wertmodells. Während kritikfreie Alternativen wie GRPO diese Probleme mildern, verursachen sie signifikanten Rechenaufwand durch die Notwendigkeit mehrerer Stichproben zur Baseline-Schätzung, was den Trainingsdurchsatz erheblich einschränkt. In diesem Artikel führen wir Sequence-Level PPO (SPPO) ein, einen skalierbaren Algorithmus, der die Stichprobeneffizienz von PPO mit der Stabilität ergebnisbasierter Updates vereint. SPPO reformuliert den Denkprozess als ein Sequence-Level Contextual Bandit Problem und verwendet eine entkoppelte skalare Wertfunktion, um varianzarme Vorteilssignale ohne Mehrfachstichproben abzuleiten. Umfangreiche Experimente mit mathematischen Benchmarks zeigen, dass SPPO Standard-PPO deutlich übertrifft und die Leistung rechenintensiver gruppenbasierter Methoden erreicht, wodurch es einen ressourceneffizienten Rahmen für das Ausrichten von LLMs für Denkaufgaben bietet.

English

Proximal Policy Optimization (PPO) is central to aligning Large Language Models (LLMs) in reasoning tasks with verifiable rewards. However, standard token-level PPO struggles in this setting due to the instability of temporal credit assignment over long Chain-of-Thought (CoT) horizons and the prohibitive memory cost of the value model. While critic-free alternatives like GRPO mitigate these issues, they incur significant computational overhead by requiring multiple samples for baseline estimation, severely limiting training throughput. In this paper, we introduce Sequence-Level PPO (SPPO), a scalable algorithm that harmonizes the sample efficiency of PPO with the stability of outcome-based updates. SPPO reformulates the reasoning process as a Sequence-Level Contextual Bandit problem, employing a decoupled scalar value function to derive low-variance advantage signals without multi-sampling. Extensive experiments on mathematical benchmarks demonstrate that SPPO significantly surpasses standard PPO and matches the performance of computation-heavy group-based methods, offering a resource-efficient framework for aligning reasoning LLMs.

SPPO: Sequenzebenen-PPO für langfristige Denkaufgaben

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

Zusammenfassung

Support