Informe Técnico Phi-4
Phi-4 Technical Report
December 12, 2024
Autores: Marah Abdin, Jyoti Aneja, Harkirat Behl, Sébastien Bubeck, Ronen Eldan, Suriya Gunasekar, Michael Harrison, Russell J. Hewett, Mojan Javaheripi, Piero Kauffmann, James R. Lee, Yin Tat Lee, Yuanzhi Li, Weishung Liu, Caio C. T. Mendes, Anh Nguyen, Eric Price, Gustavo de Rosa, Olli Saarikivi, Adil Salim, Shital Shah, Xin Wang, Rachel Ward, Yue Wu, Dingli Yu, Cyril Zhang, Yi Zhang
cs.AI
Resumen
Presentamos phi-4, un modelo de lenguaje de 14 mil millones de parámetros desarrollado con una receta de entrenamiento centrada principalmente en la calidad de los datos. A diferencia de la mayoría de los modelos de lenguaje, donde el pre-entrenamiento se basa principalmente en fuentes de datos orgánicos como contenido web o código, phi-4 incorpora estratégicamente datos sintéticos a lo largo del proceso de entrenamiento. Mientras que los modelos anteriores en la familia Phi en gran medida destilan las capacidades de un modelo docente (específicamente GPT-4), phi-4 supera sustancialmente a su modelo docente en capacidades de preguntas y respuestas centradas en STEM, evidenciando que nuestras técnicas de generación de datos y post-entrenamiento van más allá de la destilación. A pesar de cambios mínimos en la arquitectura de phi-3, phi-4 logra un rendimiento sólido en relación con su tamaño, especialmente en pruebas centradas en el razonamiento, debido a la mejora en los datos, el plan de entrenamiento y las innovaciones en el esquema de post-entrenamiento.
English
We present phi-4, a 14-billion parameter language model developed with a
training recipe that is centrally focused on data quality. Unlike most language
models, where pre-training is based primarily on organic data sources such as
web content or code, phi-4 strategically incorporates synthetic data throughout
the training process. While previous models in the Phi family largely distill
the capabilities of a teacher model (specifically GPT-4), phi-4 substantially
surpasses its teacher model on STEM-focused QA capabilities, giving evidence
that our data-generation and post-training techniques go beyond distillation.
Despite minimal changes to the phi-3 architecture, phi-4 achieves strong
performance relative to its size -- especially on reasoning-focused benchmarks
-- due to improved data, training curriculum, and innovations in the
post-training scheme.Summary
AI-Generated Summary