Rapport technique sur le raisonnement de Phi-4
Phi-4-reasoning Technical Report
April 30, 2025
Auteurs: Marah Abdin, Sahaj Agarwal, Ahmed Awadallah, Vidhisha Balachandran, Harkirat Behl, Lingjiao Chen, Gustavo de Rosa, Suriya Gunasekar, Mojan Javaheripi, Neel Joshi, Piero Kauffmann, Yash Lara, Caio César Teodoro Mendes, Arindam Mitra, Besmira Nushi, Dimitris Papailiopoulos, Olli Saarikivi, Shital Shah, Vaishnavi Shrivastava, Vibhav Vineet, Yue Wu, Safoora Yousefi, Guoqing Zheng
cs.AI
Résumé
Nous présentons Phi-4-reasoning, un modèle de raisonnement de 14 milliards de paramètres qui obtient des performances solides sur des tâches de raisonnement complexes. Entraîné par affinage supervisé de Phi-4 sur un ensemble soigneusement sélectionné d'invites "pédagogiques" - choisies pour leur niveau de complexité et de diversité approprié - et de démonstrations de raisonnement générées à l'aide de o3-mini, Phi-4-reasoning produit des chaînes de raisonnement détaillées qui exploitent efficacement les ressources de calcul au moment de l'inférence. Nous développons également Phi-4-reasoning-plus, une variante améliorée grâce à une courte phase d'apprentissage par renforcement basé sur les résultats, offrant des performances supérieures en générant des traces de raisonnement plus longues. Sur un large éventail de tâches de raisonnement, les deux modèles surpassent de manière significative des modèles à poids ouverts beaucoup plus grands, tels que le modèle DeepSeek-R1-Distill-Llama-70B, et approchent les niveaux de performance du modèle complet DeepSeek-R1. Nos évaluations approfondies couvrent des benchmarks en raisonnement mathématique et scientifique, codage, résolution de problèmes algorithmiques, planification et compréhension spatiale. Fait intéressant, nous observons un transfert non négligeable des améliorations vers des benchmarks à usage général également. Dans ce rapport, nous fournissons des insights sur nos données d'entraînement, nos méthodologies d'entraînement et nos évaluations. Nous montrons que l'avantage d'une curation minutieuse des données pour l'affinage supervisé (SFT) s'étend aux modèles de langage de raisonnement, et peut être encore amplifié par l'apprentissage par renforcement (RL). Enfin, notre évaluation met en lumière des opportunités pour améliorer la manière dont nous évaluons la performance et la robustesse des modèles de raisonnement.
English
We introduce Phi-4-reasoning, a 14-billion parameter reasoning model that
achieves strong performance on complex reasoning tasks. Trained via supervised
fine-tuning of Phi-4 on carefully curated set of "teachable" prompts-selected
for the right level of complexity and diversity-and reasoning demonstrations
generated using o3-mini, Phi-4-reasoning generates detailed reasoning chains
that effectively leverage inference-time compute. We further develop
Phi-4-reasoning-plus, a variant enhanced through a short phase of outcome-based
reinforcement learning that offers higher performance by generating longer
reasoning traces. Across a wide range of reasoning tasks, both models
outperform significantly larger open-weight models such as
DeepSeek-R1-Distill-Llama-70B model and approach the performance levels of full
DeepSeek-R1 model. Our comprehensive evaluations span benchmarks in math and
scientific reasoning, coding, algorithmic problem solving, planning, and
spatial understanding. Interestingly, we observe a non-trivial transfer of
improvements to general-purpose benchmarks as well. In this report, we provide
insights into our training data, our training methodologies, and our
evaluations. We show that the benefit of careful data curation for supervised
fine-tuning (SFT) extends to reasoning language models, and can be further
amplified by reinforcement learning (RL). Finally, our evaluation points to
opportunities for improving how we assess the performance and robustness of
reasoning models.