Rapporto Tecnico di Phi-4-reasoning
Phi-4-reasoning Technical Report
April 30, 2025
Autori: Marah Abdin, Sahaj Agarwal, Ahmed Awadallah, Vidhisha Balachandran, Harkirat Behl, Lingjiao Chen, Gustavo de Rosa, Suriya Gunasekar, Mojan Javaheripi, Neel Joshi, Piero Kauffmann, Yash Lara, Caio César Teodoro Mendes, Arindam Mitra, Besmira Nushi, Dimitris Papailiopoulos, Olli Saarikivi, Shital Shah, Vaishnavi Shrivastava, Vibhav Vineet, Yue Wu, Safoora Yousefi, Guoqing Zheng
cs.AI
Abstract
Presentiamo Phi-4-reasoning, un modello di ragionamento da 14 miliardi di parametri che ottiene prestazioni solide in compiti di ragionamento complessi. Addestrato tramite fine-tuning supervisionato di Phi-4 su un set accuratamente curato di prompt "insegnabili" - selezionati per il giusto livello di complessità e diversità - e dimostrazioni di ragionamento generate utilizzando o3-mini, Phi-4-reasoning produce catene di ragionamento dettagliate che sfruttano efficacemente il calcolo al momento dell'inferenza. Abbiamo inoltre sviluppato Phi-4-reasoning-plus, una variante potenziata attraverso una breve fase di reinforcement learning basato sui risultati, che offre prestazioni superiori generando tracce di ragionamento più lunghe. In un'ampia gamma di compiti di ragionamento, entrambi i modelli superano significativamente modelli open-weight più grandi come DeepSeek-R1-Distill-Llama-70B e si avvicinano ai livelli di prestazione del modello completo DeepSeek-R1. Le nostre valutazioni complete coprono benchmark di ragionamento matematico e scientifico, codifica, risoluzione di problemi algoritmici, pianificazione e comprensione spaziale. Interessante notare che osserviamo un trasferimento non banale dei miglioramenti anche a benchmark di uso generale. In questo report, forniamo approfondimenti sui nostri dati di addestramento, sulle metodologie di addestramento e sulle valutazioni. Dimostriamo che il vantaggio di una cura attenta dei dati per il fine-tuning supervisionato (SFT) si estende ai modelli linguistici di ragionamento e può essere ulteriormente amplificato dal reinforcement learning (RL). Infine, la nostra valutazione indica opportunità per migliorare come valutiamo le prestazioni e la robustezza dei modelli di ragionamento.
English
We introduce Phi-4-reasoning, a 14-billion parameter reasoning model that
achieves strong performance on complex reasoning tasks. Trained via supervised
fine-tuning of Phi-4 on carefully curated set of "teachable" prompts-selected
for the right level of complexity and diversity-and reasoning demonstrations
generated using o3-mini, Phi-4-reasoning generates detailed reasoning chains
that effectively leverage inference-time compute. We further develop
Phi-4-reasoning-plus, a variant enhanced through a short phase of outcome-based
reinforcement learning that offers higher performance by generating longer
reasoning traces. Across a wide range of reasoning tasks, both models
outperform significantly larger open-weight models such as
DeepSeek-R1-Distill-Llama-70B model and approach the performance levels of full
DeepSeek-R1 model. Our comprehensive evaluations span benchmarks in math and
scientific reasoning, coding, algorithmic problem solving, planning, and
spatial understanding. Interestingly, we observe a non-trivial transfer of
improvements to general-purpose benchmarks as well. In this report, we provide
insights into our training data, our training methodologies, and our
evaluations. We show that the benefit of careful data curation for supervised
fine-tuning (SFT) extends to reasoning language models, and can be further
amplified by reinforcement learning (RL). Finally, our evaluation points to
opportunities for improving how we assess the performance and robustness of
reasoning models.