Libros de Texto Son Todo Lo Que Necesitas II: Informe técnico de phi-1.5
Textbooks Are All You Need II: phi-1.5 technical report
September 11, 2023
Autores: Yuanzhi Li, Sébastien Bubeck, Ronen Eldan, Allie Del Giorno, Suriya Gunasekar, Yin Tat Lee
cs.AI
Resumen
Continuamos la investigación sobre el potencial de los modelos de lenguaje basados en Transformers de menor tamaño, iniciada por TinyStories —un modelo de 10 millones de parámetros capaz de generar inglés coherente— y el trabajo posterior sobre phi-1, un modelo de 1.3 mil millones de parámetros con un rendimiento en codificación Python cercano al estado del arte. Este último trabajo propuso utilizar modelos de lenguaje grandes (LLMs) existentes para generar datos de "calidad de libro de texto" como una forma de mejorar el proceso de aprendizaje en comparación con los datos web tradicionales. Seguimos el enfoque de "Los libros de texto son todo lo que necesitas", centrándonos esta vez en el razonamiento de sentido común en lenguaje natural, y creamos un nuevo modelo de 1.3 mil millones de parámetros llamado phi-1.5, con un rendimiento en tareas de lenguaje natural comparable a modelos 5 veces más grandes, y superando a la mayoría de los LLMs no punteros en tareas de razonamiento más complejas, como matemáticas de nivel escolar básico y codificación elemental. En términos más generales, phi-1.5 exhibe muchas de las características de LLMs mucho más grandes, tanto positivas —como la capacidad de "pensar paso a paso" o realizar cierto aprendizaje contextual rudimentario— como negativas, incluidas las alucinaciones y el potencial para generar contenido tóxico y sesgado. Sin embargo, de manera alentadora, estamos viendo mejoras en ese aspecto gracias a la ausencia de datos web. Hemos liberado phi-1.5 como código abierto para promover más investigación sobre estos temas urgentes.
English
We continue the investigation into the power of smaller Transformer-based
language models as initiated by TinyStories -- a 10 million parameter
model that can produce coherent English -- and the follow-up work on
phi-1, a 1.3 billion parameter model with Python coding performance
close to the state-of-the-art. The latter work proposed to use existing Large
Language Models (LLMs) to generate ``textbook quality" data as a way to enhance
the learning process compared to traditional web data. We follow the
``Textbooks Are All You Need" approach, focusing this time on common sense
reasoning in natural language, and create a new 1.3 billion parameter model
named phi-1.5, with performance on natural language tasks comparable
to models 5x larger, and surpassing most non-frontier LLMs on more complex
reasoning tasks such as grade-school mathematics and basic coding. More
generally, phi-1.5 exhibits many of the traits of much larger LLMs,
both good -- such as the ability to ``think step by step" or perform some
rudimentary in-context learning -- and bad, including hallucinations and the
potential for toxic and biased generations -- encouragingly though, we are
seeing improvement on that front thanks to the absence of web data. We
open-source phi-1.5 to promote further research on these urgent
topics.