ChatPaper.aiChatPaper

Phi-4 Technischer Bericht

Phi-4 Technical Report

December 12, 2024
Autoren: Marah Abdin, Jyoti Aneja, Harkirat Behl, Sébastien Bubeck, Ronen Eldan, Suriya Gunasekar, Michael Harrison, Russell J. Hewett, Mojan Javaheripi, Piero Kauffmann, James R. Lee, Yin Tat Lee, Yuanzhi Li, Weishung Liu, Caio C. T. Mendes, Anh Nguyen, Eric Price, Gustavo de Rosa, Olli Saarikivi, Adil Salim, Shital Shah, Xin Wang, Rachel Ward, Yue Wu, Dingli Yu, Cyril Zhang, Yi Zhang
cs.AI

Zusammenfassung

Wir präsentieren phi-4, ein 14-Milliarden-Parameter-Sprachmodell, das mit einem Schulungsansatz entwickelt wurde, der sich hauptsächlich auf die Datenqualität konzentriert. Im Gegensatz zu den meisten Sprachmodellen, bei denen das Vortraining hauptsächlich auf organischen Datenquellen wie Webinhalten oder Code basiert, integriert phi-4 strategisch synthetische Daten während des gesamten Schulungsprozesses. Während frühere Modelle der Phi-Familie größtenteils die Fähigkeiten eines Lehrmodells (speziell GPT-4) destillieren, übertrifft phi-4 das Lehrmodell signifikant in den Fähigkeiten zur Beantwortung von Fragen im MINT-Bereich, was darauf hindeutet, dass unsere Daten-Generierungs- und Post-Training-Techniken über die Destillation hinausgehen. Trotz minimaler Änderungen an der Architektur von phi-3 erzielt phi-4 starke Leistungen im Verhältnis zu seiner Größe - insbesondere bei auf Schlussfolgerungen ausgerichteten Benchmarks - aufgrund verbesserter Daten, Schulungspläne und Innovationen im Post-Training-Schema.
English
We present phi-4, a 14-billion parameter language model developed with a training recipe that is centrally focused on data quality. Unlike most language models, where pre-training is based primarily on organic data sources such as web content or code, phi-4 strategically incorporates synthetic data throughout the training process. While previous models in the Phi family largely distill the capabilities of a teacher model (specifically GPT-4), phi-4 substantially surpasses its teacher model on STEM-focused QA capabilities, giving evidence that our data-generation and post-training techniques go beyond distillation. Despite minimal changes to the phi-3 architecture, phi-4 achieves strong performance relative to its size -- especially on reasoning-focused benchmarks -- due to improved data, training curriculum, and innovations in the post-training scheme.

Summary

AI-Generated Summary

PDF1166December 13, 2024