SPPO: PPO a Nivel de Secuencia para Tareas de Razonamiento de Horizonte Largo

Resumen

La Optimización de Políticas Proximales (PPO) es fundamental para alinear los Modelos de Lenguaje a Gran Escala (LLM) en tareas de razonamiento con recompensas verificables. Sin embargo, el PPO estándar a nivel de token presenta dificultades en este contexto debido a la inestabilidad de la asignación temporal de crédito en horizontes largos de Cadena de Pensamiento (CoT) y al costo de memoria prohibitivo del modelo de valor. Si bien alternativas sin crítico como GRPO mitigan estos problemas, conllevan una sobrecarga computacional significativa al requerir múltiples muestras para la estimación de la línea base, limitando severamente el rendimiento del entrenamiento. En este artículo, presentamos la Optimización de Políticas Proximales a Nivel de Secuencia (SPPO), un algoritmo escalable que armoniza la eficiencia muestral de PPO con la estabilidad de las actualizaciones basadas en resultados. SPPO reformula el proceso de razonamiento como un Problema de Bandido Contextual a Nivel de Secuencia, empleando una función de valor escalar desacoplada para obtener señales de ventaja de baja varianza sin necesidad de múltiples muestreos. Experimentos exhaustivos en benchmarks matemáticos demuestran que SPPO supera significativamente al PPO estándar y equipara el rendimiento de métodos grupales intensivos en computación, ofreciendo un marco eficiente en recursos para alinear LLMs de razonamiento.

English

Proximal Policy Optimization (PPO) is central to aligning Large Language Models (LLMs) in reasoning tasks with verifiable rewards. However, standard token-level PPO struggles in this setting due to the instability of temporal credit assignment over long Chain-of-Thought (CoT) horizons and the prohibitive memory cost of the value model. While critic-free alternatives like GRPO mitigate these issues, they incur significant computational overhead by requiring multiple samples for baseline estimation, severely limiting training throughput. In this paper, we introduce Sequence-Level PPO (SPPO), a scalable algorithm that harmonizes the sample efficiency of PPO with the stability of outcome-based updates. SPPO reformulates the reasoning process as a Sequence-Level Contextual Bandit problem, employing a decoupled scalar value function to derive low-variance advantage signals without multi-sampling. Extensive experiments on mathematical benchmarks demonstrate that SPPO significantly surpasses standard PPO and matches the performance of computation-heavy group-based methods, offering a resource-efficient framework for aligning reasoning LLMs.

SPPO: PPO a Nivel de Secuencia para Tareas de Razonamiento de Horizonte Largo

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

Resumen

Support