Informe Técnico de Phi-4-Razonamiento
Phi-4-reasoning Technical Report
April 30, 2025
Autores: Marah Abdin, Sahaj Agarwal, Ahmed Awadallah, Vidhisha Balachandran, Harkirat Behl, Lingjiao Chen, Gustavo de Rosa, Suriya Gunasekar, Mojan Javaheripi, Neel Joshi, Piero Kauffmann, Yash Lara, Caio César Teodoro Mendes, Arindam Mitra, Besmira Nushi, Dimitris Papailiopoulos, Olli Saarikivi, Shital Shah, Vaishnavi Shrivastava, Vibhav Vineet, Yue Wu, Safoora Yousefi, Guoqing Zheng
cs.AI
Resumen
Presentamos Phi-4-reasoning, un modelo de razonamiento de 14 mil millones de parámetros que logra un rendimiento sólido en tareas de razonamiento complejo. Entrenado mediante ajuste fino supervisado de Phi-4 en un conjunto cuidadosamente seleccionado de indicaciones "enseñables"—elegidas por su nivel adecuado de complejidad y diversidad—y demostraciones de razonamiento generadas utilizando o3-mini, Phi-4-reasoning produce cadenas de razonamiento detalladas que aprovechan eficazmente el cómputo en tiempo de inferencia. Además, desarrollamos Phi-4-reasoning-plus, una variante mejorada mediante una breve fase de aprendizaje por refuerzo basado en resultados, que ofrece un mayor rendimiento al generar trazas de razonamiento más extensas. En una amplia gama de tareas de razonamiento, ambos modelos superan significativamente a modelos de mayor tamaño y de pesos abiertos, como el modelo DeepSeek-R1-Distill-Llama-70B, y se acercan a los niveles de rendimiento del modelo completo DeepSeek-R1. Nuestras evaluaciones exhaustivas abarcan puntos de referencia en razonamiento matemático y científico, codificación, resolución de problemas algorítmicos, planificación y comprensión espacial. Curiosamente, también observamos una transferencia no trivial de mejoras a benchmarks de propósito general. En este informe, ofrecemos información detallada sobre nuestros datos de entrenamiento, metodologías de entrenamiento y evaluaciones. Demostramos que el beneficio de una cuidadosa selección de datos para el ajuste fino supervisado (SFT) se extiende a los modelos de lenguaje de razonamiento y puede amplificarse aún más mediante el aprendizaje por refuerzo (RL). Finalmente, nuestra evaluación señala oportunidades para mejorar cómo evaluamos el rendimiento y la robustez de los modelos de razonamiento.
English
We introduce Phi-4-reasoning, a 14-billion parameter reasoning model that
achieves strong performance on complex reasoning tasks. Trained via supervised
fine-tuning of Phi-4 on carefully curated set of "teachable" prompts-selected
for the right level of complexity and diversity-and reasoning demonstrations
generated using o3-mini, Phi-4-reasoning generates detailed reasoning chains
that effectively leverage inference-time compute. We further develop
Phi-4-reasoning-plus, a variant enhanced through a short phase of outcome-based
reinforcement learning that offers higher performance by generating longer
reasoning traces. Across a wide range of reasoning tasks, both models
outperform significantly larger open-weight models such as
DeepSeek-R1-Distill-Llama-70B model and approach the performance levels of full
DeepSeek-R1 model. Our comprehensive evaluations span benchmarks in math and
scientific reasoning, coding, algorithmic problem solving, planning, and
spatial understanding. Interestingly, we observe a non-trivial transfer of
improvements to general-purpose benchmarks as well. In this report, we provide
insights into our training data, our training methodologies, and our
evaluations. We show that the benefit of careful data curation for supervised
fine-tuning (SFT) extends to reasoning language models, and can be further
amplified by reinforcement learning (RL). Finally, our evaluation points to
opportunities for improving how we assess the performance and robustness of
reasoning models.