Phi-4-Reasoning Technischer Bericht
Phi-4-reasoning Technical Report
April 30, 2025
Autoren: Marah Abdin, Sahaj Agarwal, Ahmed Awadallah, Vidhisha Balachandran, Harkirat Behl, Lingjiao Chen, Gustavo de Rosa, Suriya Gunasekar, Mojan Javaheripi, Neel Joshi, Piero Kauffmann, Yash Lara, Caio César Teodoro Mendes, Arindam Mitra, Besmira Nushi, Dimitris Papailiopoulos, Olli Saarikivi, Shital Shah, Vaishnavi Shrivastava, Vibhav Vineet, Yue Wu, Safoora Yousefi, Guoqing Zheng
cs.AI
Zusammenfassung
Wir stellen Phi-4-reasoning vor, ein 14-Milliarden-Parameter-Modell für logisches Denken, das eine starke Leistung bei komplexen Denkaufgaben erzielt. Das Modell wurde durch überwachtes Fein-Tuning von Phi-4 anhand eines sorgfältig kuratierten Satzes von „lehrenden“ Prompts – ausgewählt für das richtige Maß an Komplexität und Vielfalt – sowie durch Denkdemonstrationen, die mit o3-mini generiert wurden, trainiert. Phi-4-reasoning erzeugt detaillierte Denkketten, die die Rechenleistung zur Inferenzzeit effektiv nutzen. Wir entwickelten weiterhin Phi-4-reasoning-plus, eine Variante, die durch eine kurze Phase des ergebnisbasierten Reinforcement Learning verbessert wurde und durch die Erzeugung längerer Denkspuren eine höhere Leistung bietet. Bei einer Vielzahl von Denkaufgaben übertreffen beide Modelle deutlich größere Open-Weight-Modelle wie das DeepSeek-R1-Distill-Llama-70B-Modell und nähern sich den Leistungsniveaus des vollständigen DeepSeek-R1-Modells an. Unsere umfassenden Bewertungen umfassen Benchmarks in den Bereichen mathematisches und wissenschaftliches Denken, Programmierung, algorithmische Problemlösung, Planung und räumliches Verständnis. Interessanterweise beobachten wir auch eine nicht triviale Übertragung von Verbesserungen auf allgemeine Benchmarks. In diesem Bericht geben wir Einblicke in unsere Trainingsdaten, unsere Trainingsmethoden und unsere Bewertungen. Wir zeigen, dass der Nutzen einer sorgfältigen Datenkuratierung für überwachtes Fein-Tuning (SFT) auch auf Sprachmodelle für logisches Denken zutrifft und durch Reinforcement Learning (RL) weiter verstärkt werden kann. Schließlich weist unsere Bewertung auf Möglichkeiten hin, wie wir die Leistung und Robustheit von Denkmodellen besser bewerten können.
English
We introduce Phi-4-reasoning, a 14-billion parameter reasoning model that
achieves strong performance on complex reasoning tasks. Trained via supervised
fine-tuning of Phi-4 on carefully curated set of "teachable" prompts-selected
for the right level of complexity and diversity-and reasoning demonstrations
generated using o3-mini, Phi-4-reasoning generates detailed reasoning chains
that effectively leverage inference-time compute. We further develop
Phi-4-reasoning-plus, a variant enhanced through a short phase of outcome-based
reinforcement learning that offers higher performance by generating longer
reasoning traces. Across a wide range of reasoning tasks, both models
outperform significantly larger open-weight models such as
DeepSeek-R1-Distill-Llama-70B model and approach the performance levels of full
DeepSeek-R1 model. Our comprehensive evaluations span benchmarks in math and
scientific reasoning, coding, algorithmic problem solving, planning, and
spatial understanding. Interestingly, we observe a non-trivial transfer of
improvements to general-purpose benchmarks as well. In this report, we provide
insights into our training data, our training methodologies, and our
evaluations. We show that the benefit of careful data curation for supervised
fine-tuning (SFT) extends to reasoning language models, and can be further
amplified by reinforcement learning (RL). Finally, our evaluation points to
opportunities for improving how we assess the performance and robustness of
reasoning models.