Phi-4 Technischer Bericht
Phi-4 Technical Report
December 12, 2024
Autoren: Marah Abdin, Jyoti Aneja, Harkirat Behl, Sébastien Bubeck, Ronen Eldan, Suriya Gunasekar, Michael Harrison, Russell J. Hewett, Mojan Javaheripi, Piero Kauffmann, James R. Lee, Yin Tat Lee, Yuanzhi Li, Weishung Liu, Caio C. T. Mendes, Anh Nguyen, Eric Price, Gustavo de Rosa, Olli Saarikivi, Adil Salim, Shital Shah, Xin Wang, Rachel Ward, Yue Wu, Dingli Yu, Cyril Zhang, Yi Zhang
cs.AI
Zusammenfassung
Wir präsentieren phi-4, ein 14-Milliarden-Parameter-Sprachmodell, das mit einem Schulungsansatz entwickelt wurde, der sich hauptsächlich auf die Datenqualität konzentriert. Im Gegensatz zu den meisten Sprachmodellen, bei denen das Vortraining hauptsächlich auf organischen Datenquellen wie Webinhalten oder Code basiert, integriert phi-4 strategisch synthetische Daten während des gesamten Schulungsprozesses. Während frühere Modelle der Phi-Familie größtenteils die Fähigkeiten eines Lehrmodells (speziell GPT-4) destillieren, übertrifft phi-4 das Lehrmodell signifikant in den Fähigkeiten zur Beantwortung von Fragen im MINT-Bereich, was darauf hindeutet, dass unsere Daten-Generierungs- und Post-Training-Techniken über die Destillation hinausgehen. Trotz minimaler Änderungen an der Architektur von phi-3 erzielt phi-4 starke Leistungen im Verhältnis zu seiner Größe - insbesondere bei auf Schlussfolgerungen ausgerichteten Benchmarks - aufgrund verbesserter Daten, Schulungspläne und Innovationen im Post-Training-Schema.
English
We present phi-4, a 14-billion parameter language model developed with a
training recipe that is centrally focused on data quality. Unlike most language
models, where pre-training is based primarily on organic data sources such as
web content or code, phi-4 strategically incorporates synthetic data throughout
the training process. While previous models in the Phi family largely distill
the capabilities of a teacher model (specifically GPT-4), phi-4 substantially
surpasses its teacher model on STEM-focused QA capabilities, giving evidence
that our data-generation and post-training techniques go beyond distillation.
Despite minimal changes to the phi-3 architecture, phi-4 achieves strong
performance relative to its size -- especially on reasoning-focused benchmarks
-- due to improved data, training curriculum, and innovations in the
post-training scheme.Summary
AI-Generated Summary