ChatPaper.aiChatPaper

Rapport technique sur le raisonnement de Phi-4

Phi-4-reasoning Technical Report

April 30, 2025
Auteurs: Marah Abdin, Sahaj Agarwal, Ahmed Awadallah, Vidhisha Balachandran, Harkirat Behl, Lingjiao Chen, Gustavo de Rosa, Suriya Gunasekar, Mojan Javaheripi, Neel Joshi, Piero Kauffmann, Yash Lara, Caio César Teodoro Mendes, Arindam Mitra, Besmira Nushi, Dimitris Papailiopoulos, Olli Saarikivi, Shital Shah, Vaishnavi Shrivastava, Vibhav Vineet, Yue Wu, Safoora Yousefi, Guoqing Zheng
cs.AI

Résumé

Nous présentons Phi-4-reasoning, un modèle de raisonnement de 14 milliards de paramètres qui obtient des performances solides sur des tâches de raisonnement complexes. Entraîné par affinage supervisé de Phi-4 sur un ensemble soigneusement sélectionné d'invites "pédagogiques" - choisies pour leur niveau de complexité et de diversité approprié - et de démonstrations de raisonnement générées à l'aide de o3-mini, Phi-4-reasoning produit des chaînes de raisonnement détaillées qui exploitent efficacement les ressources de calcul au moment de l'inférence. Nous développons également Phi-4-reasoning-plus, une variante améliorée grâce à une courte phase d'apprentissage par renforcement basé sur les résultats, offrant des performances supérieures en générant des traces de raisonnement plus longues. Sur un large éventail de tâches de raisonnement, les deux modèles surpassent de manière significative des modèles à poids ouverts beaucoup plus grands, tels que le modèle DeepSeek-R1-Distill-Llama-70B, et approchent les niveaux de performance du modèle complet DeepSeek-R1. Nos évaluations approfondies couvrent des benchmarks en raisonnement mathématique et scientifique, codage, résolution de problèmes algorithmiques, planification et compréhension spatiale. Fait intéressant, nous observons un transfert non négligeable des améliorations vers des benchmarks à usage général également. Dans ce rapport, nous fournissons des insights sur nos données d'entraînement, nos méthodologies d'entraînement et nos évaluations. Nous montrons que l'avantage d'une curation minutieuse des données pour l'affinage supervisé (SFT) s'étend aux modèles de langage de raisonnement, et peut être encore amplifié par l'apprentissage par renforcement (RL). Enfin, notre évaluation met en lumière des opportunités pour améliorer la manière dont nous évaluons la performance et la robustesse des modèles de raisonnement.
English
We introduce Phi-4-reasoning, a 14-billion parameter reasoning model that achieves strong performance on complex reasoning tasks. Trained via supervised fine-tuning of Phi-4 on carefully curated set of "teachable" prompts-selected for the right level of complexity and diversity-and reasoning demonstrations generated using o3-mini, Phi-4-reasoning generates detailed reasoning chains that effectively leverage inference-time compute. We further develop Phi-4-reasoning-plus, a variant enhanced through a short phase of outcome-based reinforcement learning that offers higher performance by generating longer reasoning traces. Across a wide range of reasoning tasks, both models outperform significantly larger open-weight models such as DeepSeek-R1-Distill-Llama-70B model and approach the performance levels of full DeepSeek-R1 model. Our comprehensive evaluations span benchmarks in math and scientific reasoning, coding, algorithmic problem solving, planning, and spatial understanding. Interestingly, we observe a non-trivial transfer of improvements to general-purpose benchmarks as well. In this report, we provide insights into our training data, our training methodologies, and our evaluations. We show that the benefit of careful data curation for supervised fine-tuning (SFT) extends to reasoning language models, and can be further amplified by reinforcement learning (RL). Finally, our evaluation points to opportunities for improving how we assess the performance and robustness of reasoning models.
PDF503May 4, 2025