Les manuels scolaires sont tout ce dont vous avez besoin II : Rapport technique de phi-1.5
Textbooks Are All You Need II: phi-1.5 technical report
September 11, 2023
Auteurs: Yuanzhi Li, Sébastien Bubeck, Ronen Eldan, Allie Del Giorno, Suriya Gunasekar, Yin Tat Lee
cs.AI
Résumé
Nous poursuivons l'étude sur les capacités des modèles de langage basés sur l'architecture Transformer de petite taille, initiée par TinyStories -- un modèle de 10 millions de paramètres capable de produire un anglais cohérent -- et le travail ultérieur sur phi-1, un modèle de 1,3 milliard de paramètres dont les performances en codage Python se rapprochent de l'état de l'art. Ce dernier travail a proposé d'utiliser les modèles de langage de grande taille (LLMs) existants pour générer des données de « qualité manuel scolaire » afin d'améliorer le processus d'apprentissage par rapport aux données web traditionnelles. Nous suivons l'approche « Les manuels scolaires suffisent », en nous concentrant cette fois sur le raisonnement de bon sens en langage naturel, et créons un nouveau modèle de 1,3 milliard de paramètres nommé phi-1.5, dont les performances sur les tâches de langage naturel sont comparables à des modèles 5 fois plus grands, et qui surpasse la plupart des LLMs non de pointe sur des tâches de raisonnement plus complexes telles que les mathématiques de niveau primaire et le codage de base. Plus généralement, phi-1.5 présente de nombreuses caractéristiques des LLMs beaucoup plus volumineux, à la fois positives -- comme la capacité à « penser étape par étape » ou à effectuer un apprentissage contextuel rudimentaire -- et négatives, y compris les hallucinations et le potentiel de générations toxiques et biaisées -- bien que, de manière encourageante, nous observions des améliorations sur ce front grâce à l'absence de données web. Nous rendons phi-1.5 open-source pour promouvoir des recherches supplémentaires sur ces sujets urgents.
English
We continue the investigation into the power of smaller Transformer-based
language models as initiated by TinyStories -- a 10 million parameter
model that can produce coherent English -- and the follow-up work on
phi-1, a 1.3 billion parameter model with Python coding performance
close to the state-of-the-art. The latter work proposed to use existing Large
Language Models (LLMs) to generate ``textbook quality" data as a way to enhance
the learning process compared to traditional web data. We follow the
``Textbooks Are All You Need" approach, focusing this time on common sense
reasoning in natural language, and create a new 1.3 billion parameter model
named phi-1.5, with performance on natural language tasks comparable
to models 5x larger, and surpassing most non-frontier LLMs on more complex
reasoning tasks such as grade-school mathematics and basic coding. More
generally, phi-1.5 exhibits many of the traits of much larger LLMs,
both good -- such as the ability to ``think step by step" or perform some
rudimentary in-context learning -- and bad, including hallucinations and the
potential for toxic and biased generations -- encouragingly though, we are
seeing improvement on that front thanks to the absence of web data. We
open-source phi-1.5 to promote further research on these urgent
topics.