Textbooks Are All You Need II: phi-1.5 technisch rapport
Textbooks Are All You Need II: phi-1.5 technical report
September 11, 2023
Auteurs: Yuanzhi Li, Sébastien Bubeck, Ronen Eldan, Allie Del Giorno, Suriya Gunasekar, Yin Tat Lee
cs.AI
Samenvatting
We vervolgen het onderzoek naar de kracht van kleinere Transformer-gebaseerde taalmodelen, zoals geïnitieerd door TinyStories -- een model met 10 miljoen parameters dat coherent Engels kan produceren -- en het vervolgwerk over phi-1, een model met 1,3 miljard parameters dat prestaties levert in Python-codering die dicht bij de state-of-the-art liggen. Het laatste werk stelde voor om bestaande Large Language Models (LLMs) te gebruiken om "leerboekkwaliteit" data te genereren als een manier om het leerproces te verbeteren in vergelijking met traditionele webdata. We volgen de "Textbooks Are All You Need"-aanpak, waarbij we deze keer focussen op gezond verstand redeneren in natuurlijke taal, en creëren een nieuw model met 1,3 miljard parameters genaamd phi-1.5, met prestaties op natuurlijke taal taken die vergelijkbaar zijn met modellen die 5x groter zijn, en dat de meeste niet-frontier LLMs overtreft op complexere redeneertaken zoals basisschool wiskunde en eenvoudige codering. In het algemeen vertoont phi-1.5 veel van de kenmerken van veel grotere LLMs, zowel goede -- zoals het vermogen om "stap voor stap te denken" of enige rudimentaire in-context learning uit te voeren -- als slechte, waaronder hallucinaties en het potentieel voor giftige en bevooroordeelde generaties -- bemoedigend is echter dat we verbetering zien op dat gebied dankzij de afwezigheid van webdata. We maken phi-1.5 open-source om verder onderzoek naar deze urgente onderwerpen te bevorderen.
English
We continue the investigation into the power of smaller Transformer-based
language models as initiated by TinyStories -- a 10 million parameter
model that can produce coherent English -- and the follow-up work on
phi-1, a 1.3 billion parameter model with Python coding performance
close to the state-of-the-art. The latter work proposed to use existing Large
Language Models (LLMs) to generate ``textbook quality" data as a way to enhance
the learning process compared to traditional web data. We follow the
``Textbooks Are All You Need" approach, focusing this time on common sense
reasoning in natural language, and create a new 1.3 billion parameter model
named phi-1.5, with performance on natural language tasks comparable
to models 5x larger, and surpassing most non-frontier LLMs on more complex
reasoning tasks such as grade-school mathematics and basic coding. More
generally, phi-1.5 exhibits many of the traits of much larger LLMs,
both good -- such as the ability to ``think step by step" or perform some
rudimentary in-context learning -- and bad, including hallucinations and the
potential for toxic and biased generations -- encouragingly though, we are
seeing improvement on that front thanks to the absence of web data. We
open-source phi-1.5 to promote further research on these urgent
topics.