FIPO: Evocação de Raciocínio Profundo com Otimização de Políticas Influenciada por KL Futuro

Resumo

Apresentamos a Otimização de Políticas com Influência da KL Futura (FIPO), um algoritmo de aprendizagem por reforço projetado para superar os gargalos de raciocínio em modelos de linguagem de grande escala. Embora o treinamento no estilo GRPO seja eficaz em escala, ele normalmente depende de recompensas baseadas em resultados (ORM) que distribuem uma vantagem global de maneira uniforme por cada token em uma trajetória. Argumentamos que essa atribuição de crédito de granularidade grossa impõe um limite de desempenho ao falhar em distinguir pivôs lógicos críticos de tokens triviais. A FIPO aborda esta questão incorporando o divergência KL futura descontada na atualização da política, criando uma formulação de vantagem densa que repondera os tokens com base na sua influência no comportamento subsequente da trajetória. Empiricamente, a FIPO permite que os modelos superem a estagnação de comprimento observada nas linhas de base padrão. Avaliado no Qwen2.5-32B, o FIPO estende o comprimento médio da cadeia de raciocínio de aproximadamente 4.000 para mais de 10.000 tokens e aumenta a precisão AIME 2024 Pass@1 de 50,0% para um pico de 58,0% (convergindo para aproximadamente 56,0%). Este resultado supera tanto o DeepSeek-R1-Zero-Math-32B (cerca de 47,0%) quanto o o1-mini (aproximadamente 56,0%). Nossos resultados sugerem que estabelecer formulações de vantagem densa é um caminho vital para evoluir algoritmos baseados em ORM e desbloquear todo o potencial de raciocínio dos modelos base. Disponibilizamos publicamente nosso sistema de treinamento, construído sobre a estrutura verl.

English

We present Future-KL Influenced Policy Optimization (FIPO), a reinforcement learning algorithm designed to overcome reasoning bottlenecks in large language models. While GRPO style training scales effectively, it typically relies on outcome-based rewards (ORM) that distribute a global advantage uniformly across every token in a trajectory. We argue that this coarse-grained credit assignment imposes a performance ceiling by failing to distinguish critical logical pivots from trivial tokens. FIPO addresses this by incorporating discounted future-KL divergence into the policy update, creating a dense advantage formulation that re-weights tokens based on their influence on subsequent trajectory behavior. Empirically, FIPO enables models to break through the length stagnation seen in standard baselines. Evaluated on Qwen2.5-32B, FIPO extends the average chain-of-thought length from roughly 4,000 to over 10,000 tokens and increases AIME 2024 Pass@1 accuracy from 50.0% to a peak of 58.0% (converging at approximately 56.0\%). This outperforms both DeepSeek-R1-Zero-Math-32B (around 47.0%) and o1-mini (approximately 56.0%). Our results suggest that establishing dense advantage formulations is a vital path for evolving ORM-based algorithms to unlock the full reasoning potential of base models. We open-source our training system, built on the verl framework.

FIPO: Evocação de Raciocínio Profundo com Otimização de Políticas Influenciada por KL Futuro

FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization

Resumo

Support