FIPO: Выявление глубинных рассуждений с помощью оптимизации политики, учитывающей будущую дивергенцию Кульбака-Лейблера
FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization
March 20, 2026
Авторы: Chiyu Ma, Shuo Yang, Kexin Huang, Jinda Lu, Haoming Meng, Shangshang Wang, Bolin Ding, Soroush Vosoughi, Guoyin Wang, Jingren Zhou
cs.AI
Аннотация
Мы представляем Future-KL Influenced Policy Optimization (FIPO) — алгоритм обучения с подкреплением, разработанный для преодоления узких мест в логических рассуждениях больших языковых моделей. Хотя обучение в стиле GRPO эффективно масштабируется, оно обычно опирается на результато-ориентированные вознаграждения (ORM), которые распределяют глобальное преимущество равномерно по всем токенам траектории. Мы утверждаем, что такая грубая атрибуция заслуг создает потолок производительности, поскольку не отличает критические логические повороты от тривиальных токенов. FIPO решает эту проблему, включая дисконтированную будущую KL-дивергенцию в обновление политики, создавая плотную формулировку преимущества, которая перевзвешивает токены на основе их влияния на последующее поведение траектории. Экспериментально FIPO позволяет моделям преодолеть стагнацию длины, наблюдаемую в стандартных базовых методах. При оценке на Qwen2.5-32B FIPO увеличивает среднюю длину цепочки рассуждений с примерно 4000 до более чем 10 000 токенов и повышает точность AIME 2024 Pass@1 с 50,0% до пикового значения 58,0% (сходясь примерно к 56,0%). Это превосходит показатели как DeepSeek-R1-Zero-Math-32B (~47,0%), так и o1-mini (~56,0%). Наши результаты позволяют предположить, что создание плотных формулировок преимущества является ключевым путем для эволюции ORM-ориентированных алгоритмов с целью раскрытия полного потенциала базовых моделей в рассуждениях. Мы открываем исходный код нашей системы обучения, построенной на основе фреймворка verl.
English
We present Future-KL Influenced Policy Optimization (FIPO), a reinforcement learning algorithm designed to overcome reasoning bottlenecks in large language models. While GRPO style training scales effectively, it typically relies on outcome-based rewards (ORM) that distribute a global advantage uniformly across every token in a trajectory. We argue that this coarse-grained credit assignment imposes a performance ceiling by failing to distinguish critical logical pivots from trivial tokens. FIPO addresses this by incorporating discounted future-KL divergence into the policy update, creating a dense advantage formulation that re-weights tokens based on their influence on subsequent trajectory behavior. Empirically, FIPO enables models to break through the length stagnation seen in standard baselines. Evaluated on Qwen2.5-32B, FIPO extends the average chain-of-thought length from roughly 4,000 to over 10,000 tokens and increases AIME 2024 Pass@1 accuracy from 50.0% to a peak of 58.0% (converging at approximately 56.0\%). This outperforms both DeepSeek-R1-Zero-Math-32B (around 47.0%) and o1-mini (approximately 56.0%). Our results suggest that establishing dense advantage formulations is a vital path for evolving ORM-based algorithms to unlock the full reasoning potential of base models. We open-source our training system, built on the verl framework.