Lehrbücher sind alles, was Sie brauchen II: Technischer Bericht zu phi-1.5
Textbooks Are All You Need II: phi-1.5 technical report
September 11, 2023
Autoren: Yuanzhi Li, Sébastien Bubeck, Ronen Eldan, Allie Del Giorno, Suriya Gunasekar, Yin Tat Lee
cs.AI
Zusammenfassung
Wir setzen die Untersuchung der Leistungsfähigkeit kleinerer Transformer-basierter Sprachmodelle fort, die mit TinyStories begonnen wurde – einem Modell mit 10 Millionen Parametern, das kohärentes Englisch erzeugen kann – und der darauf aufbauenden Arbeit zu phi-1, einem Modell mit 1,3 Milliarden Parametern, dessen Python-Codierleistung nahe am Stand der Technik liegt. Letztere Arbeit schlug vor, bestehende Large Language Models (LLMs) zur Erzeugung von „Lehrbuchqualität“-Daten zu nutzen, um den Lernprozess im Vergleich zu traditionellen Webdaten zu verbessern. Wir folgen dem Ansatz „Textbooks Are All You Need“ und konzentrieren uns diesmal auf gesunden Menschenverstand in natürlicher Sprache. Dabei entwickeln wir ein neues Modell mit 1,3 Milliarden Parametern namens phi-1.5, dessen Leistung bei natürlichen Sprachaufgaben mit Modellen vergleichbar ist, die fünfmal größer sind, und das die meisten nicht führenden LLMs bei komplexeren Denkaufgaben wie Grundschulmathematik und einfacher Codierung übertrifft. Allgemein zeigt phi-1.5 viele Merkmale deutlich größerer LLMs, sowohl positive – wie die Fähigkeit, „Schritt für Schritt zu denken“ oder rudimentäres In-Context-Lernen durchzuführen – als auch negative, einschließlich Halluzinationen und dem Potenzial für toxische und voreingenommene Generierungen. Ermutigenderweise sehen wir jedoch Verbesserungen in diesem Bereich dank des Fehlens von Webdaten. Wir stellen phi-1.5 als Open Source zur Verfügung, um die weitere Forschung zu diesen dringenden Themen zu fördern.
English
We continue the investigation into the power of smaller Transformer-based
language models as initiated by TinyStories -- a 10 million parameter
model that can produce coherent English -- and the follow-up work on
phi-1, a 1.3 billion parameter model with Python coding performance
close to the state-of-the-art. The latter work proposed to use existing Large
Language Models (LLMs) to generate ``textbook quality" data as a way to enhance
the learning process compared to traditional web data. We follow the
``Textbooks Are All You Need" approach, focusing this time on common sense
reasoning in natural language, and create a new 1.3 billion parameter model
named phi-1.5, with performance on natural language tasks comparable
to models 5x larger, and surpassing most non-frontier LLMs on more complex
reasoning tasks such as grade-school mathematics and basic coding. More
generally, phi-1.5 exhibits many of the traits of much larger LLMs,
both good -- such as the ability to ``think step by step" or perform some
rudimentary in-context learning -- and bad, including hallucinations and the
potential for toxic and biased generations -- encouragingly though, we are
seeing improvement on that front thanks to the absence of web data. We
open-source phi-1.5 to promote further research on these urgent
topics.