FIPO: 미래-KL 영향 정책 최적화를 통한 심층 추론 유도
FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization
March 20, 2026
저자: Chiyu Ma, Shuo Yang, Kexin Huang, Jinda Lu, Haoming Meng, Shangshang Wang, Bolin Ding, Soroush Vosoughi, Guoyin Wang, Jingren Zhou
cs.AI
초록
우리는 대규모 언어 모델의 추론 병목 현상을 극복하기 위해 설계된 강화 학습 알고리즘인 FIPO(Future-KL Influenced Policy Optimization)를 제안한다. GRPO 스타일 훈련은 효과적으로 확장되지만, 일반적으로 궤적의 모든 토큰에 전역 이점(advantage)을 균일하게 분배하는 결과 기반 보상(ORM)에 의존한다. 우리는 이러한 과도하게 거친 신용 배분(credit assignment)이 중요한 논리적 전환점과 사소한 토큰을 구분하지 못함으로써 성능 상한선을 초래한다고 주장한다. FIPO는 정책 업데이트에 할인된 미래 KL 발산을 통합하여 이 문제를 해결하며, 후속 궤적 행동에 미치는 영향에 기반하여 토큰을 재가중하는 조밀한 이점(dense advantage) formulation을 생성한다. 실험적으로 FIPO는 표준 기준선에서 관찰되는 길이 정체를 돌파할 수 있게 한다. Qwen2.5-32B에서 평가한 결과, FIPO는 평균 사고 사슬 길이를 약 4,000토큰에서 10,000토큰 이상으로 확장하고 AIME 2024 Pass@1 정확도를 50.0%에서 최고 58.0%(약 56.0% 수렴)까지 향상시켰다. 이는 DeepSeek-R1-Zero-Math-32B(약 47.0%)와 o1-mini(약 56.0%) 모두를 능가하는 성능이다. 우리의 결과는 조밀한 이점 formulation을 구축하는 것이 기본 모델의 전체 추론 잠재력을 해제하기 위해 ORM 기반 알고리즘을 진화시키는 중요한 경로임을 시사한다. 우리는 verl 프레임워크 기반으로 구축된 우리의 훈련 시스템을 오픈소스로 공개한다.
English
We present Future-KL Influenced Policy Optimization (FIPO), a reinforcement learning algorithm designed to overcome reasoning bottlenecks in large language models. While GRPO style training scales effectively, it typically relies on outcome-based rewards (ORM) that distribute a global advantage uniformly across every token in a trajectory. We argue that this coarse-grained credit assignment imposes a performance ceiling by failing to distinguish critical logical pivots from trivial tokens. FIPO addresses this by incorporating discounted future-KL divergence into the policy update, creating a dense advantage formulation that re-weights tokens based on their influence on subsequent trajectory behavior. Empirically, FIPO enables models to break through the length stagnation seen in standard baselines. Evaluated on Qwen2.5-32B, FIPO extends the average chain-of-thought length from roughly 4,000 to over 10,000 tokens and increases AIME 2024 Pass@1 accuracy from 50.0% to a peak of 58.0% (converging at approximately 56.0\%). This outperforms both DeepSeek-R1-Zero-Math-32B (around 47.0%) and o1-mini (approximately 56.0%). Our results suggest that establishing dense advantage formulations is a vital path for evolving ORM-based algorithms to unlock the full reasoning potential of base models. We open-source our training system, built on the verl framework.