FIPO: Stimolazione del Ragionamento Profondo con Ottimizzazione della Politica Influenzata da Future-KL
FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization
March 20, 2026
Autori: Chiyu Ma, Shuo Yang, Kexin Huang, Jinda Lu, Haoming Meng, Shangshang Wang, Bolin Ding, Soroush Vosoughi, Guoyin Wang, Jingren Zhou
cs.AI
Abstract
Presentiamo Future-KL Influenced Policy Optimization (FIPO), un algoritmo di apprendimento per rinforzo progettato per superare i colli di bottiglia del ragionamento nei grandi modelli linguistici. Sebbene l'addestramento in stile GRPO sia efficacemente scalabile, tipicamente si affida a ricompense basate sul risultato (ORM) che distribuiscono un vantaggio globale in modo uniforme su ogni token in una traiettoria. Sosteniamo che questa assegnazione del credito a grana grossa impone un limite massimo alle prestazioni, poiché non riesce a distinguere i punti critici logici dai token banali. FIPO affronta questo problema incorporando la divergenza KL futura scontata nell'aggiornamento della policy, creando una formulazione di vantaggio densa che ripesca i token in base alla loro influenza sul comportamento successivo della traiettoria. Empiricamente, FIPO consente ai modelli di superare la stagnazione della lunghezza osservata nei baseline standard. Valutato su Qwen2.5-32B, FIPO estende la lunghezza media del ragionamento a catena da circa 4.000 a oltre 10.000 token e aumenta l'accuratezza Pass@1 di AIME 2024 dal 50,0% a un picco del 58,0% (convergenza a circa 56,0%). Questo risultato supera sia DeepSeek-R1-Zero-Math-32B (circa 47,0%) che o1-mini (circa 56,0%). I nostri risultati suggeriscono che stabilire formulazioni di vantaggio dense è un percorso vitale per far evolvere gli algoritmi basati su ORM e sbloccare il pieno potenziale di ragionamento dei modelli base. Rendiamo open-source il nostro sistema di addestramento, costruito sul framework verl.
English
We present Future-KL Influenced Policy Optimization (FIPO), a reinforcement learning algorithm designed to overcome reasoning bottlenecks in large language models. While GRPO style training scales effectively, it typically relies on outcome-based rewards (ORM) that distribute a global advantage uniformly across every token in a trajectory. We argue that this coarse-grained credit assignment imposes a performance ceiling by failing to distinguish critical logical pivots from trivial tokens. FIPO addresses this by incorporating discounted future-KL divergence into the policy update, creating a dense advantage formulation that re-weights tokens based on their influence on subsequent trajectory behavior. Empirically, FIPO enables models to break through the length stagnation seen in standard baselines. Evaluated on Qwen2.5-32B, FIPO extends the average chain-of-thought length from roughly 4,000 to over 10,000 tokens and increases AIME 2024 Pass@1 accuracy from 50.0% to a peak of 58.0% (converging at approximately 56.0\%). This outperforms both DeepSeek-R1-Zero-Math-32B (around 47.0%) and o1-mini (approximately 56.0%). Our results suggest that establishing dense advantage formulations is a vital path for evolving ORM-based algorithms to unlock the full reasoning potential of base models. We open-source our training system, built on the verl framework.