FIPO: Diep Redeneren Oproepen met Toekomst-KL Beïnvloede Beleidsoptimalisatie
FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization
March 20, 2026
Auteurs: Chiyu Ma, Shuo Yang, Kexin Huang, Jinda Lu, Haoming Meng, Shangshang Wang, Bolin Ding, Soroush Vosoughi, Guoyin Wang, Jingren Zhou
cs.AI
Samenvatting
Wij presenteren Future-KL Influenced Policy Optimization (FIPO), een reinforcement learning-algoritme ontworpen om redeneerknelpunten in grote taalmodellen te overwinnen. Hoewel training in de stijl van GRPO effectief schaalt, is deze doorgaans afhankelijk van op uitkomsten gebaseerde beloningen (ORM) die een globaal voordeel uniform verdelen over elk token in een traject. Wij stellen dat deze grove krediettoewijzing een prestatieplafond oplegt doordat kritieke logische keerpunten niet worden onderscheiden van triviale tokens. FIPO lost dit op door een verdisconteerde toekomstige KL-divergentie op te nemen in de policy-update, waardoor een dichte voordeelformulering ontstaat die tokens herwaardeert op basis van hun invloed op het daaropvolgende trajectgedrag. Empirisch gezien stelt FIPO modellen in staat om de lengtestagnatie, zoals waargenomen bij standaard-baselines, te doorbreken. Geëvalueerd op Qwen2.5-32B verlengt FIPO de gemiddelde chain-of-thought-lengte van ongeveer 4.000 naar meer dan 10.000 tokens en verhoogt het de AIME 2024 Pass@1-nauwkeurigheid van 50,0% naar een piek van 58,0% (convergerend op ongeveer 56,0%). Dit presteert beter dan zowel DeepSeek-R1-Zero-Math-32B (ongeveer 47,0%) als o1-mini (ongeveer 56,0%). Onze resultaten suggereren dat het vestigen van dichte voordeelformuleringen een essentiële weg is voor de evolutie van ORM-gebaseerde algoritmen om het volledige redeneerpotentieel van basismodellen te ontsluiten. Wij maken onze trainingsysteem, gebouwd op het verl-framework, open source.
English
We present Future-KL Influenced Policy Optimization (FIPO), a reinforcement learning algorithm designed to overcome reasoning bottlenecks in large language models. While GRPO style training scales effectively, it typically relies on outcome-based rewards (ORM) that distribute a global advantage uniformly across every token in a trajectory. We argue that this coarse-grained credit assignment imposes a performance ceiling by failing to distinguish critical logical pivots from trivial tokens. FIPO addresses this by incorporating discounted future-KL divergence into the policy update, creating a dense advantage formulation that re-weights tokens based on their influence on subsequent trajectory behavior. Empirically, FIPO enables models to break through the length stagnation seen in standard baselines. Evaluated on Qwen2.5-32B, FIPO extends the average chain-of-thought length from roughly 4,000 to over 10,000 tokens and increases AIME 2024 Pass@1 accuracy from 50.0% to a peak of 58.0% (converging at approximately 56.0\%). This outperforms both DeepSeek-R1-Zero-Math-32B (around 47.0%) and o1-mini (approximately 56.0%). Our results suggest that establishing dense advantage formulations is a vital path for evolving ORM-based algorithms to unlock the full reasoning potential of base models. We open-source our training system, built on the verl framework.