FIPO: Provocación de Razonamiento Profundo mediante Optimización de Políticas Influenciada por la KL Futura

Resumen

Presentamos la Optimización de Políticas Influenciada por la KL Futura (FIPO), un algoritmo de aprendizaje por refuerzo diseñado para superar los cuellos de botella en el razonamiento de modelos de lenguaje grandes. Aunque el entrenamiento de estilo GRPO escala eficazmente, normalmente depende de recompensas basadas en resultados (ORM) que distribuyen una ventaja global de manera uniforme en cada token de una trayectoria. Sostenemos que esta asignación de crédito de grano grueso impone un límite de rendimiento al no distinguir los pivotes lógicos críticos de los tokens triviales. FIPO aborda este problema incorporando la divergencia KL futura descontada en la actualización de la política, creando una formulación de ventaja densa que repesca los tokens en función de su influencia en el comportamiento posterior de la trayectoria. Empíricamente, FIPO permite a los modelos superar el estancamiento en la longitud observado en los baselines estándar. Evaluado en Qwen2.5-32B, FIPO extiende la longitud promedio de la cadena de pensamiento de aproximadamente 4,000 a más de 10,000 tokens y aumenta la precisión Pass@1 de AIME 2024 del 50.0% a un pico del 58.0% (convergiendo aproximadamente en 56.0%). Esto supera tanto a DeepSeek-R1-Zero-Math-32B (alrededor del 47.0%) como a o1-mini (aproximadamente 56.0%). Nuestros resultados sugieren que establecer formulaciones de ventaja densa es un camino vital para evolucionar los algoritmos basados en ORM y desbloquear todo el potencial de razonamiento de los modelos base. Liberamos como código abierto nuestro sistema de entrenamiento, construido sobre el framework verl.

English

We present Future-KL Influenced Policy Optimization (FIPO), a reinforcement learning algorithm designed to overcome reasoning bottlenecks in large language models. While GRPO style training scales effectively, it typically relies on outcome-based rewards (ORM) that distribute a global advantage uniformly across every token in a trajectory. We argue that this coarse-grained credit assignment imposes a performance ceiling by failing to distinguish critical logical pivots from trivial tokens. FIPO addresses this by incorporating discounted future-KL divergence into the policy update, creating a dense advantage formulation that re-weights tokens based on their influence on subsequent trajectory behavior. Empirically, FIPO enables models to break through the length stagnation seen in standard baselines. Evaluated on Qwen2.5-32B, FIPO extends the average chain-of-thought length from roughly 4,000 to over 10,000 tokens and increases AIME 2024 Pass@1 accuracy from 50.0% to a peak of 58.0% (converging at approximately 56.0\%). This outperforms both DeepSeek-R1-Zero-Math-32B (around 47.0%) and o1-mini (approximately 56.0%). Our results suggest that establishing dense advantage formulations is a vital path for evolving ORM-based algorithms to unlock the full reasoning potential of base models. We open-source our training system, built on the verl framework.

FIPO: Provocación de Razonamiento Profundo mediante Optimización de Políticas Influenciada por la KL Futura

FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization

Resumen

Support