FIPO: Förderung tiefgreifender Entscheidungsfindung durch zukunftsorientierte KL-beeinflusste Politikoptimierung

Zusammenfassung

Wir stellen Future-KL Influenced Policy Optimization (FIPO) vor, einen Reinforcement-Learning-Algorithmus, der entwickelt wurde, um Denkblockaden in großen Sprachmodellen zu überwinden. Während GRPO-artiges Training effektiv skaliert, stützt es sich typischerweise auf ergebnisbasierte Belohnungen (ORM), die einen globalen Vorteil gleichmäßig auf jedes Token in einer Trajektorie verteilen. Wir argumentieren, dass diese grobgranulare Kreditzuweisung eine Leistungsobergrenze erzwingt, da sie nicht zwischen kritischen logischen Wendepunkten und trivialen Tokens unterscheidet. FIPO adressiert dies, indem es die diskontierte Future-KL-Divergenz in die Policy-Aktualisierung einbezieht und so eine dichte Vorteilsformulierung schafft, die Tokens basierend auf ihrem Einfluss auf das nachfolgende Trajektorienverhalten neu gewichtet. Empirisch ermöglicht FIPO Modellen, die in Standard-Baselines beobachtete Längenstagnation zu durchbrechen. Evaluierungen an Qwen2.5-32B zeigen, dass FIPO die durchschnittliche Chain-of-Thought-Länge von etwa 4.000 auf über 10.000 Tokens erhöht und die AIME-2024-Pass@1-Genauigkeit von 50,0 % auf einen Spitzenwert von 58,0 % steigert (Konvergenz bei etwa 56,0 %). Dies übertrifft sowohl DeepSeek-R1-Zero-Math-32B (rund 47,0 %) als auch o1-mini (etwa 56,0 %). Unsere Ergebnisse legen nahe, dass die Etablierung dichter Vorteilsformulierungen ein entscheidender Weg ist, um ORM-basierte Algorithmen weiterzuentwickeln und das volle Denkpotenzial von Basismodellen freizusetzen. Wir veröffentlichen unser auf dem verl-Framework aufgebautes Trainingssystem als Open Source.

English

We present Future-KL Influenced Policy Optimization (FIPO), a reinforcement learning algorithm designed to overcome reasoning bottlenecks in large language models. While GRPO style training scales effectively, it typically relies on outcome-based rewards (ORM) that distribute a global advantage uniformly across every token in a trajectory. We argue that this coarse-grained credit assignment imposes a performance ceiling by failing to distinguish critical logical pivots from trivial tokens. FIPO addresses this by incorporating discounted future-KL divergence into the policy update, creating a dense advantage formulation that re-weights tokens based on their influence on subsequent trajectory behavior. Empirically, FIPO enables models to break through the length stagnation seen in standard baselines. Evaluated on Qwen2.5-32B, FIPO extends the average chain-of-thought length from roughly 4,000 to over 10,000 tokens and increases AIME 2024 Pass@1 accuracy from 50.0% to a peak of 58.0% (converging at approximately 56.0\%). This outperforms both DeepSeek-R1-Zero-Math-32B (around 47.0%) and o1-mini (approximately 56.0%). Our results suggest that establishing dense advantage formulations is a vital path for evolving ORM-based algorithms to unlock the full reasoning potential of base models. We open-source our training system, built on the verl framework.

FIPO: Förderung tiefgreifender Entscheidungsfindung durch zukunftsorientierte KL-beeinflusste Politikoptimierung

FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization

Zusammenfassung

Support