Relatório Técnico do Phi-4-reasoning
Phi-4-reasoning Technical Report
April 30, 2025
Autores: Marah Abdin, Sahaj Agarwal, Ahmed Awadallah, Vidhisha Balachandran, Harkirat Behl, Lingjiao Chen, Gustavo de Rosa, Suriya Gunasekar, Mojan Javaheripi, Neel Joshi, Piero Kauffmann, Yash Lara, Caio César Teodoro Mendes, Arindam Mitra, Besmira Nushi, Dimitris Papailiopoulos, Olli Saarikivi, Shital Shah, Vaishnavi Shrivastava, Vibhav Vineet, Yue Wu, Safoora Yousefi, Guoqing Zheng
cs.AI
Resumo
Apresentamos o Phi-4-reasoning, um modelo de raciocínio com 14 bilhões de parâmetros que alcança um desempenho robusto em tarefas complexas de raciocínio. Treinado por meio de ajuste fino supervisionado do Phi-4 em um conjunto cuidadosamente curado de prompts "ensináveis" — selecionados pelo nível adequado de complexidade e diversidade — e demonstrações de raciocínio geradas usando o o3-mini, o Phi-4-reasoning produz cadeias de raciocínio detalhadas que aproveitam efetivamente o poder computacional durante a inferência. Desenvolvemos ainda o Phi-4-reasoning-plus, uma variante aprimorada por uma breve fase de aprendizado por reforço baseado em resultados, que oferece um desempenho superior ao gerar traços de raciocínio mais longos. Em uma ampla gama de tarefas de raciocínio, ambos os modelos superam significativamente modelos de código aberto muito maiores, como o DeepSeek-R1-Distill-Llama-70B, e se aproximam dos níveis de desempenho do modelo completo DeepSeek-R1. Nossas avaliações abrangentes abrangem benchmarks de raciocínio matemático e científico, codificação, resolução de problemas algorítmicos, planejamento e compreensão espacial. Curiosamente, observamos uma transferência não trivial de melhorias para benchmarks de propósito geral também. Neste relatório, fornecemos insights sobre nossos dados de treinamento, metodologias de treinamento e avaliações. Mostramos que o benefício da curadoria cuidadosa de dados para ajuste fino supervisionado (SFT) se estende a modelos de linguagem de raciocínio e pode ser amplificado ainda mais pelo aprendizado por reforço (RL). Por fim, nossa avaliação aponta oportunidades para melhorar a forma como avaliamos o desempenho e a robustez dos modelos de raciocínio.
English
We introduce Phi-4-reasoning, a 14-billion parameter reasoning model that
achieves strong performance on complex reasoning tasks. Trained via supervised
fine-tuning of Phi-4 on carefully curated set of "teachable" prompts-selected
for the right level of complexity and diversity-and reasoning demonstrations
generated using o3-mini, Phi-4-reasoning generates detailed reasoning chains
that effectively leverage inference-time compute. We further develop
Phi-4-reasoning-plus, a variant enhanced through a short phase of outcome-based
reinforcement learning that offers higher performance by generating longer
reasoning traces. Across a wide range of reasoning tasks, both models
outperform significantly larger open-weight models such as
DeepSeek-R1-Distill-Llama-70B model and approach the performance levels of full
DeepSeek-R1 model. Our comprehensive evaluations span benchmarks in math and
scientific reasoning, coding, algorithmic problem solving, planning, and
spatial understanding. Interestingly, we observe a non-trivial transfer of
improvements to general-purpose benchmarks as well. In this report, we provide
insights into our training data, our training methodologies, and our
evaluations. We show that the benefit of careful data curation for supervised
fine-tuning (SFT) extends to reasoning language models, and can be further
amplified by reinforcement learning (RL). Finally, our evaluation points to
opportunities for improving how we assess the performance and robustness of
reasoning models.