SPPO : PPO au niveau séquentiel pour les tâches de raisonnement à long terme

Résumé

L'optimisation proximale des politiques (PPO) est centrale pour l'alignement des grands modèles de langage (LLM) dans les tâches de raisonnement avec des récompenses vérifiables. Cependant, le PPO standard au niveau des tokens est inefficace dans ce contexte, en raison de l'instabilité de l'attribution temporelle du crédit sur les longs horizons de chaînes de raisonnement (CoT) et du coût mémoire prohibitif du modèle de valeur. Bien que des alternatives sans critique comme le GRPO atténuent ces problèmes, elles entraînent une surcharge computationnelle significative en nécessitant de multiples échantillons pour l'estimation de la baseline, limitant ainsi considérablement le débit d'entraînement. Dans cet article, nous présentons le PPO au niveau de la séquence (SPPO), un algorithme scalable qui concilie l'efficacité d'échantillonnage du PPO avec la stabilité des mises à jour basées sur les résultats. SPPO reformule le processus de raisonnement comme un problème de bandit contextuel au niveau de la séquence, utilisant une fonction de valeur scalaire découplée pour obtenir des signaux d'avantage à faible variance sans multi-échantillonnage. Des expériences approfondies sur des benchmarks mathématiques démontrent que SPPO surpasse significativement le PPO standard et égale les performances des méthodes gourmandes en calcul basées sur des groupes, offrant ainsi un cadre efficace en ressources pour l'alignement des LLM de raisonnement.

English

Proximal Policy Optimization (PPO) is central to aligning Large Language Models (LLMs) in reasoning tasks with verifiable rewards. However, standard token-level PPO struggles in this setting due to the instability of temporal credit assignment over long Chain-of-Thought (CoT) horizons and the prohibitive memory cost of the value model. While critic-free alternatives like GRPO mitigate these issues, they incur significant computational overhead by requiring multiple samples for baseline estimation, severely limiting training throughput. In this paper, we introduce Sequence-Level PPO (SPPO), a scalable algorithm that harmonizes the sample efficiency of PPO with the stability of outcome-based updates. SPPO reformulates the reasoning process as a Sequence-Level Contextual Bandit problem, employing a decoupled scalar value function to derive low-variance advantage signals without multi-sampling. Extensive experiments on mathematical benchmarks demonstrate that SPPO significantly surpasses standard PPO and matches the performance of computation-heavy group-based methods, offering a resource-efficient framework for aligning reasoning LLMs.

SPPO : PPO au niveau séquentiel pour les tâches de raisonnement à long terme

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

Résumé

Support