ChatPaper.aiChatPaper

Lehrbücher sind alles, was Sie brauchen II: Technischer Bericht zu phi-1.5

Textbooks Are All You Need II: phi-1.5 technical report

September 11, 2023
Autoren: Yuanzhi Li, Sébastien Bubeck, Ronen Eldan, Allie Del Giorno, Suriya Gunasekar, Yin Tat Lee
cs.AI

Zusammenfassung

Wir setzen die Untersuchung der Leistungsfähigkeit kleinerer Transformer-basierter Sprachmodelle fort, die mit TinyStories begonnen wurde – einem Modell mit 10 Millionen Parametern, das kohärentes Englisch erzeugen kann – und der darauf aufbauenden Arbeit zu phi-1, einem Modell mit 1,3 Milliarden Parametern, dessen Python-Codierleistung nahe am Stand der Technik liegt. Letztere Arbeit schlug vor, bestehende Large Language Models (LLMs) zur Erzeugung von „Lehrbuchqualität“-Daten zu nutzen, um den Lernprozess im Vergleich zu traditionellen Webdaten zu verbessern. Wir folgen dem Ansatz „Textbooks Are All You Need“ und konzentrieren uns diesmal auf gesunden Menschenverstand in natürlicher Sprache. Dabei entwickeln wir ein neues Modell mit 1,3 Milliarden Parametern namens phi-1.5, dessen Leistung bei natürlichen Sprachaufgaben mit Modellen vergleichbar ist, die fünfmal größer sind, und das die meisten nicht führenden LLMs bei komplexeren Denkaufgaben wie Grundschulmathematik und einfacher Codierung übertrifft. Allgemein zeigt phi-1.5 viele Merkmale deutlich größerer LLMs, sowohl positive – wie die Fähigkeit, „Schritt für Schritt zu denken“ oder rudimentäres In-Context-Lernen durchzuführen – als auch negative, einschließlich Halluzinationen und dem Potenzial für toxische und voreingenommene Generierungen. Ermutigenderweise sehen wir jedoch Verbesserungen in diesem Bereich dank des Fehlens von Webdaten. Wir stellen phi-1.5 als Open Source zur Verfügung, um die weitere Forschung zu diesen dringenden Themen zu fördern.
English
We continue the investigation into the power of smaller Transformer-based language models as initiated by TinyStories -- a 10 million parameter model that can produce coherent English -- and the follow-up work on phi-1, a 1.3 billion parameter model with Python coding performance close to the state-of-the-art. The latter work proposed to use existing Large Language Models (LLMs) to generate ``textbook quality" data as a way to enhance the learning process compared to traditional web data. We follow the ``Textbooks Are All You Need" approach, focusing this time on common sense reasoning in natural language, and create a new 1.3 billion parameter model named phi-1.5, with performance on natural language tasks comparable to models 5x larger, and surpassing most non-frontier LLMs on more complex reasoning tasks such as grade-school mathematics and basic coding. More generally, phi-1.5 exhibits many of the traits of much larger LLMs, both good -- such as the ability to ``think step by step" or perform some rudimentary in-context learning -- and bad, including hallucinations and the potential for toxic and biased generations -- encouragingly though, we are seeing improvement on that front thanks to the absence of web data. We open-source phi-1.5 to promote further research on these urgent topics.
PDF875December 15, 2024