Phi-4-reasoning Technisch Rapport
Phi-4-reasoning Technical Report
April 30, 2025
Auteurs: Marah Abdin, Sahaj Agarwal, Ahmed Awadallah, Vidhisha Balachandran, Harkirat Behl, Lingjiao Chen, Gustavo de Rosa, Suriya Gunasekar, Mojan Javaheripi, Neel Joshi, Piero Kauffmann, Yash Lara, Caio César Teodoro Mendes, Arindam Mitra, Besmira Nushi, Dimitris Papailiopoulos, Olli Saarikivi, Shital Shah, Vaishnavi Shrivastava, Vibhav Vineet, Yue Wu, Safoora Yousefi, Guoqing Zheng
cs.AI
Samenvatting
We introduceren Phi-4-reasoning, een redeneermodel met 14 miljard parameters dat sterke prestaties levert op complexe redeneertaken. Het model is getraind via supervised fine-tuning van Phi-4 op een zorgvuldig samengestelde set van "leerbare" prompts—geselecteerd op basis van het juiste niveau van complexiteit en diversiteit—en redeneerdemonstraties gegenereerd met o3-mini. Phi-4-reasoning produceert gedetailleerde redeneerketens die effectief gebruikmaken van rekentijd tijdens inferentie. We ontwikkelden verder Phi-4-reasoning-plus, een variant versterkt door een korte fase van outcome-based reinforcement learning, die hogere prestaties biedt door langere redeneersporen te genereren. Over een breed scala aan redeneertaken presteren beide modellen aanzienlijk beter dan veel grotere open-weight modellen zoals het DeepSeek-R1-Distill-Llama-70B-model en benaderen ze de prestatieniveaus van het volledige DeepSeek-R1-model. Onze uitgebreide evaluaties omvatten benchmarks op het gebied van wiskundig en wetenschappelijk redeneren, coderen, algoritmisch probleemoplossen, planning en ruimtelijk inzicht. Interessant genoeg observeren we ook een niet-triviale overdracht van verbeteringen naar algemene benchmarks. In dit rapport bieden we inzichten in onze trainingsdata, onze trainingsmethodologieën en onze evaluaties. We tonen aan dat het voordeel van zorgvuldige datacuratie voor supervised fine-tuning (SFT) zich uitstrekt tot redeneertaalmodellen en verder kan worden versterkt door reinforcement learning (RL). Tot slot wijst onze evaluatie op mogelijkheden om de manier waarop we de prestaties en robuustheid van redeneermodellen beoordelen, te verbeteren.
English
We introduce Phi-4-reasoning, a 14-billion parameter reasoning model that
achieves strong performance on complex reasoning tasks. Trained via supervised
fine-tuning of Phi-4 on carefully curated set of "teachable" prompts-selected
for the right level of complexity and diversity-and reasoning demonstrations
generated using o3-mini, Phi-4-reasoning generates detailed reasoning chains
that effectively leverage inference-time compute. We further develop
Phi-4-reasoning-plus, a variant enhanced through a short phase of outcome-based
reinforcement learning that offers higher performance by generating longer
reasoning traces. Across a wide range of reasoning tasks, both models
outperform significantly larger open-weight models such as
DeepSeek-R1-Distill-Llama-70B model and approach the performance levels of full
DeepSeek-R1 model. Our comprehensive evaluations span benchmarks in math and
scientific reasoning, coding, algorithmic problem solving, planning, and
spatial understanding. Interestingly, we observe a non-trivial transfer of
improvements to general-purpose benchmarks as well. In this report, we provide
insights into our training data, our training methodologies, and our
evaluations. We show that the benefit of careful data curation for supervised
fine-tuning (SFT) extends to reasoning language models, and can be further
amplified by reinforcement learning (RL). Finally, our evaluation points to
opportunities for improving how we assess the performance and robustness of
reasoning models.