Технический отчет по Phi-4-reasoning
Phi-4-reasoning Technical Report
April 30, 2025
Авторы: Marah Abdin, Sahaj Agarwal, Ahmed Awadallah, Vidhisha Balachandran, Harkirat Behl, Lingjiao Chen, Gustavo de Rosa, Suriya Gunasekar, Mojan Javaheripi, Neel Joshi, Piero Kauffmann, Yash Lara, Caio César Teodoro Mendes, Arindam Mitra, Besmira Nushi, Dimitris Papailiopoulos, Olli Saarikivi, Shital Shah, Vaishnavi Shrivastava, Vibhav Vineet, Yue Wu, Safoora Yousefi, Guoqing Zheng
cs.AI
Аннотация
Мы представляем Phi-4-reasoning, модель для решения сложных задач с 14 миллиардами параметров, которая демонстрирует высокую производительность. Модель была обучена с помощью контролируемой тонкой настройки (supervised fine-tuning) на основе Phi-4, используя тщательно отобранный набор "обучающих" промптов, выбранных с учетом оптимального уровня сложности и разнообразия, а также демонстраций рассуждений, сгенерированных с помощью o3-mini. Phi-4-reasoning создает детализированные цепочки рассуждений, эффективно используя вычислительные ресурсы на этапе вывода. Мы также разработали Phi-4-reasoning-plus — улучшенную версию модели, которая прошла короткий этап обучения с подкреплением на основе результатов (outcome-based reinforcement learning), что позволяет ей достигать более высокой производительности за счет генерации более длинных цепочек рассуждений. На широком спектре задач, связанных с рассуждениями, обе модели значительно превосходят более крупные модели с открытыми весами, такие как DeepSeek-R1-Distill-Llama-70B, и приближаются к уровню производительности полной модели DeepSeek-R1. Наши всесторонние оценки охватывают тесты в области математических и научных рассуждений, программирования, алгоритмического решения задач, планирования и пространственного понимания. Интересно, что мы также наблюдаем заметный перенос улучшений на общие тестовые наборы. В этом отчете мы делимся подробностями о наших данных для обучения, методологиях обучения и результатах оценок. Мы показываем, что тщательный отбор данных для контролируемой тонкой настройки (SFT) приносит пользу языковым моделям для рассуждений, а обучение с подкреплением (RL) может дополнительно усилить этот эффект. Наконец, наши оценки указывают на возможности для улучшения методов оценки производительности и устойчивости моделей для рассуждений.
English
We introduce Phi-4-reasoning, a 14-billion parameter reasoning model that
achieves strong performance on complex reasoning tasks. Trained via supervised
fine-tuning of Phi-4 on carefully curated set of "teachable" prompts-selected
for the right level of complexity and diversity-and reasoning demonstrations
generated using o3-mini, Phi-4-reasoning generates detailed reasoning chains
that effectively leverage inference-time compute. We further develop
Phi-4-reasoning-plus, a variant enhanced through a short phase of outcome-based
reinforcement learning that offers higher performance by generating longer
reasoning traces. Across a wide range of reasoning tasks, both models
outperform significantly larger open-weight models such as
DeepSeek-R1-Distill-Llama-70B model and approach the performance levels of full
DeepSeek-R1 model. Our comprehensive evaluations span benchmarks in math and
scientific reasoning, coding, algorithmic problem solving, planning, and
spatial understanding. Interestingly, we observe a non-trivial transfer of
improvements to general-purpose benchmarks as well. In this report, we provide
insights into our training data, our training methodologies, and our
evaluations. We show that the benefit of careful data curation for supervised
fine-tuning (SFT) extends to reasoning language models, and can be further
amplified by reinforcement learning (RL). Finally, our evaluation points to
opportunities for improving how we assess the performance and robustness of
reasoning models.