FIPO : Optimisation des Politiques Influencée par la Divergence KL Future pour Susciter un Raisonnement Profond

Résumé

Nous présentons l'Optimisation de Politique par Influence du KL Futur (FIPO), un algorithme d'apprentissage par renforcement conçu pour surmonter les goulets d'étranglement du raisonnement dans les grands modèles de langage. Bien que l'entraînement de type GRPO soit efficacement scalable, il repose généralement sur des récompenses basées sur les résultats (ORM) qui distribuent un avantage global uniformément sur chaque token d'une trajectoire. Nous soutenons que cette attribution de crédit à granularité grossière impose un plafond de performance en ne parvenant pas à distinguer les pivots logiques critiques des tokens triviaux. FIPO résout ce problème en incorporant la divergence KL future actualisée dans la mise à jour de la politique, créant ainsi une formulation d'avantage dense qui repondère les tokens en fonction de leur influence sur le comportement ultérieur de la trajectoire. Empiriquement, FIPO permet aux modèles de briser la stagnation de longueur observée dans les lignes de base standard. Évalué sur Qwen2.5-32B, FIPO étend la longueur moyenne du raisonnement en chaîne d'environ 4 000 à plus de 10 000 tokens et augmente la précision Pass@1 de l'AIME 2024 de 50,0 % à un pic de 58,0 % (convergeant vers environ 56,0 %). Cela surpasse à la fois DeepSeek-R1-Zero-Math-32B (environ 47,0 %) et o1-mini (environ 56,0 %). Nos résultats suggèrent que l'établissement de formulations d'avantage dense est une voie essentielle pour faire évoluer les algorithmes basés sur les ORM afin de libérer le plein potentiel de raisonnement des modèles de base. Nous ouvrons en accès libre notre système d'entraînement, construit sur le framework verl.

English

We present Future-KL Influenced Policy Optimization (FIPO), a reinforcement learning algorithm designed to overcome reasoning bottlenecks in large language models. While GRPO style training scales effectively, it typically relies on outcome-based rewards (ORM) that distribute a global advantage uniformly across every token in a trajectory. We argue that this coarse-grained credit assignment imposes a performance ceiling by failing to distinguish critical logical pivots from trivial tokens. FIPO addresses this by incorporating discounted future-KL divergence into the policy update, creating a dense advantage formulation that re-weights tokens based on their influence on subsequent trajectory behavior. Empirically, FIPO enables models to break through the length stagnation seen in standard baselines. Evaluated on Qwen2.5-32B, FIPO extends the average chain-of-thought length from roughly 4,000 to over 10,000 tokens and increases AIME 2024 Pass@1 accuracy from 50.0% to a peak of 58.0% (converging at approximately 56.0\%). This outperforms both DeepSeek-R1-Zero-Math-32B (around 47.0%) and o1-mini (approximately 56.0%). Our results suggest that establishing dense advantage formulations is a vital path for evolving ORM-based algorithms to unlock the full reasoning potential of base models. We open-source our training system, built on the verl framework.

FIPO : Optimisation des Politiques Influencée par la Divergence KL Future pour Susciter un Raisonnement Profond

FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization

Résumé

Support