Phi-4 Technischer Bericht

papers.abstract

Wir präsentieren phi-4, ein 14-Milliarden-Parameter-Sprachmodell, das mit einem Schulungsansatz entwickelt wurde, der sich hauptsächlich auf die Datenqualität konzentriert. Im Gegensatz zu den meisten Sprachmodellen, bei denen das Vortraining hauptsächlich auf organischen Datenquellen wie Webinhalten oder Code basiert, integriert phi-4 strategisch synthetische Daten während des gesamten Schulungsprozesses. Während frühere Modelle der Phi-Familie größtenteils die Fähigkeiten eines Lehrmodells (speziell GPT-4) destillieren, übertrifft phi-4 das Lehrmodell signifikant in den Fähigkeiten zur Beantwortung von Fragen im MINT-Bereich, was darauf hindeutet, dass unsere Daten-Generierungs- und Post-Training-Techniken über die Destillation hinausgehen. Trotz minimaler Änderungen an der Architektur von phi-3 erzielt phi-4 starke Leistungen im Verhältnis zu seiner Größe - insbesondere bei auf Schlussfolgerungen ausgerichteten Benchmarks - aufgrund verbesserter Daten, Schulungspläne und Innovationen im Post-Training-Schema.

English

We present phi-4, a 14-billion parameter language model developed with a training recipe that is centrally focused on data quality. Unlike most language models, where pre-training is based primarily on organic data sources such as web content or code, phi-4 strategically incorporates synthetic data throughout the training process. While previous models in the Phi family largely distill the capabilities of a teacher model (specifically GPT-4), phi-4 substantially surpasses its teacher model on STEM-focused QA capabilities, giving evidence that our data-generation and post-training techniques go beyond distillation. Despite minimal changes to the phi-3 architecture, phi-4 achieves strong performance relative to its size -- especially on reasoning-focused benchmarks -- due to improved data, training curriculum, and innovations in the post-training scheme.

Phi-4 Technischer Bericht

Phi-4 Technical Report

papers.abstract

Support