ChatPaper.aiChatPaper

Relatório Técnico Phi-4

Phi-4 Technical Report

December 12, 2024
Autores: Marah Abdin, Jyoti Aneja, Harkirat Behl, Sébastien Bubeck, Ronen Eldan, Suriya Gunasekar, Michael Harrison, Russell J. Hewett, Mojan Javaheripi, Piero Kauffmann, James R. Lee, Yin Tat Lee, Yuanzhi Li, Weishung Liu, Caio C. T. Mendes, Anh Nguyen, Eric Price, Gustavo de Rosa, Olli Saarikivi, Adil Salim, Shital Shah, Xin Wang, Rachel Ward, Yue Wu, Dingli Yu, Cyril Zhang, Yi Zhang
cs.AI

Resumo

Apresentamos phi-4, um modelo de linguagem com 14 bilhões de parâmetros desenvolvido com uma receita de treinamento centralmente focada na qualidade dos dados. Ao contrário da maioria dos modelos de linguagem, nos quais o pré-treinamento é baseado principalmente em fontes de dados orgânicos, como conteúdo da web ou código, o phi-4 incorpora estrategicamente dados sintéticos ao longo do processo de treinamento. Enquanto modelos anteriores da família Phi em grande parte destilam as capacidades de um modelo professor (especificamente GPT-4), o phi-4 supera substancialmente seu modelo professor em capacidades de perguntas e respostas focadas em STEM, evidenciando que nossas técnicas de geração de dados e pós-treinamento vão além da destilação. Apesar de mudanças mínimas na arquitetura do phi-3, o phi-4 alcança um desempenho sólido em relação ao seu tamanho - especialmente em benchmarks focados em raciocínio - devido a melhorias nos dados, no currículo de treinamento e inovações no esquema de pós-treinamento.
English
We present phi-4, a 14-billion parameter language model developed with a training recipe that is centrally focused on data quality. Unlike most language models, where pre-training is based primarily on organic data sources such as web content or code, phi-4 strategically incorporates synthetic data throughout the training process. While previous models in the Phi family largely distill the capabilities of a teacher model (specifically GPT-4), phi-4 substantially surpasses its teacher model on STEM-focused QA capabilities, giving evidence that our data-generation and post-training techniques go beyond distillation. Despite minimal changes to the phi-3 architecture, phi-4 achieves strong performance relative to its size -- especially on reasoning-focused benchmarks -- due to improved data, training curriculum, and innovations in the post-training scheme.

Summary

AI-Generated Summary

PDF1166December 13, 2024