ChatPaper.aiChatPaper

Rapport technique Phi-4

Phi-4 Technical Report

December 12, 2024
Auteurs: Marah Abdin, Jyoti Aneja, Harkirat Behl, Sébastien Bubeck, Ronen Eldan, Suriya Gunasekar, Michael Harrison, Russell J. Hewett, Mojan Javaheripi, Piero Kauffmann, James R. Lee, Yin Tat Lee, Yuanzhi Li, Weishung Liu, Caio C. T. Mendes, Anh Nguyen, Eric Price, Gustavo de Rosa, Olli Saarikivi, Adil Salim, Shital Shah, Xin Wang, Rachel Ward, Yue Wu, Dingli Yu, Cyril Zhang, Yi Zhang
cs.AI

Résumé

Nous présentons phi-4, un modèle de langage de 14 milliards de paramètres développé avec une recette d'entraînement centrée principalement sur la qualité des données. Contrairement à la plupart des modèles de langage, où la pré-formation est principalement basée sur des sources de données organiques telles que le contenu web ou le code, phi-4 intègre stratégiquement des données synthétiques tout au long du processus d'entraînement. Alors que les modèles précédents de la famille Phi distillaient largement les capacités d'un modèle enseignant (notamment GPT-4), phi-4 dépasse considérablement son modèle enseignant en ce qui concerne les capacités de questions-réponses axées sur les STEM, apportant la preuve que nos techniques de génération de données et de post-entraînement vont au-delà de la distillation. Malgré des changements minimes dans l'architecture de phi-3, phi-4 obtient de solides performances par rapport à sa taille - en particulier sur des référentiels axés sur le raisonnement - grâce à l'amélioration des données, du programme d'entraînement et des innovations dans le schéma de post-entraînement.
English
We present phi-4, a 14-billion parameter language model developed with a training recipe that is centrally focused on data quality. Unlike most language models, where pre-training is based primarily on organic data sources such as web content or code, phi-4 strategically incorporates synthetic data throughout the training process. While previous models in the Phi family largely distill the capabilities of a teacher model (specifically GPT-4), phi-4 substantially surpasses its teacher model on STEM-focused QA capabilities, giving evidence that our data-generation and post-training techniques go beyond distillation. Despite minimal changes to the phi-3 architecture, phi-4 achieves strong performance relative to its size -- especially on reasoning-focused benchmarks -- due to improved data, training curriculum, and innovations in the post-training scheme.

Summary

AI-Generated Summary

PDF1166December 13, 2024