Technisch Rapport Phi-4
Phi-4 Technical Report
December 12, 2024
Auteurs: Marah Abdin, Jyoti Aneja, Harkirat Behl, Sébastien Bubeck, Ronen Eldan, Suriya Gunasekar, Michael Harrison, Russell J. Hewett, Mojan Javaheripi, Piero Kauffmann, James R. Lee, Yin Tat Lee, Yuanzhi Li, Weishung Liu, Caio C. T. Mendes, Anh Nguyen, Eric Price, Gustavo de Rosa, Olli Saarikivi, Adil Salim, Shital Shah, Xin Wang, Rachel Ward, Yue Wu, Dingli Yu, Cyril Zhang, Yi Zhang
cs.AI
Samenvatting
Wij presenteren phi-4, een taalmodel met 14 miljard parameters ontwikkeld met een trainingsmethode die centraal gericht is op datakwaliteit. In tegenstelling tot de meeste taalmodellen, waarbij pre-training voornamelijk gebaseerd is op organische gegevensbronnen zoals webinhoud of code, omvat phi-4 strategisch synthetische data gedurende het trainingsproces. Terwijl eerdere modellen in de Phi-familie grotendeels de mogelijkheden van een docentmodel (specifiek GPT-4) destilleren, overtreft phi-4 aanzienlijk zijn docentmodel op STEM-gerichte QA-mogelijkheden, wat aantoont dat onze data-generatie- en post-trainingsmethoden verder gaan dan distillatie. Ondanks minimale wijzigingen aan de architectuur van phi-3, behaalt phi-4 sterke prestaties in verhouding tot zijn omvang - vooral op redeneringgerichte benchmarks - dankzij verbeterde data, trainingscurriculum en innovaties in het post-trainingschema.
English
We present phi-4, a 14-billion parameter language model developed with a
training recipe that is centrally focused on data quality. Unlike most language
models, where pre-training is based primarily on organic data sources such as
web content or code, phi-4 strategically incorporates synthetic data throughout
the training process. While previous models in the Phi family largely distill
the capabilities of a teacher model (specifically GPT-4), phi-4 substantially
surpasses its teacher model on STEM-focused QA capabilities, giving evidence
that our data-generation and post-training techniques go beyond distillation.
Despite minimal changes to the phi-3 architecture, phi-4 achieves strong
performance relative to its size -- especially on reasoning-focused benchmarks
-- due to improved data, training curriculum, and innovations in the
post-training scheme.