Учебники — это всё, что вам нужно II: технический отчет о phi-1.5
Textbooks Are All You Need II: phi-1.5 technical report
September 11, 2023
Авторы: Yuanzhi Li, Sébastien Bubeck, Ronen Eldan, Allie Del Giorno, Suriya Gunasekar, Yin Tat Lee
cs.AI
Аннотация
Мы продолжаем исследование возможностей небольших языковых моделей на основе архитектуры Transformer, начатое с TinyStories — модели с 10 миллионами параметров, способной генерировать связный английский текст, и последующей работы над phi-1 — моделью с 1,3 миллиардами параметров, демонстрирующей производительность в написании кода на Python, близкую к современным стандартам. В последней работе было предложено использовать существующие крупные языковые модели (LLM) для генерации данных «учебного качества» как способа улучшения процесса обучения по сравнению с традиционными веб-данными. Мы следуем подходу «Textbooks Are All You Need», на этот раз сосредоточившись на здравом смысле в естественном языке, и создаем новую модель с 1,3 миллиардами параметров под названием phi-1.5. Ее производительность в задачах обработки естественного языка сравнима с моделями в 5 раз большего размера, а в более сложных задачах, таких как математика начальной школы и базовое программирование, она превосходит большинство непередовых LLM. В целом, phi-1.5 демонстрирует многие черты гораздо более крупных LLM, как положительные — например, способность «мыслить шаг за шагом» или выполнять элементарное обучение в контексте, — так и отрицательные, включая галлюцинации и склонность к генерации токсичного и предвзятого контента. Однако обнадеживает то, что мы наблюдаем улучшения в этом аспекте благодаря отсутствию веб-данных. Мы открываем исходный код phi-1.5, чтобы способствовать дальнейшим исследованиям в этих актуальных направлениях.
English
We continue the investigation into the power of smaller Transformer-based
language models as initiated by TinyStories -- a 10 million parameter
model that can produce coherent English -- and the follow-up work on
phi-1, a 1.3 billion parameter model with Python coding performance
close to the state-of-the-art. The latter work proposed to use existing Large
Language Models (LLMs) to generate ``textbook quality" data as a way to enhance
the learning process compared to traditional web data. We follow the
``Textbooks Are All You Need" approach, focusing this time on common sense
reasoning in natural language, and create a new 1.3 billion parameter model
named phi-1.5, with performance on natural language tasks comparable
to models 5x larger, and surpassing most non-frontier LLMs on more complex
reasoning tasks such as grade-school mathematics and basic coding. More
generally, phi-1.5 exhibits many of the traits of much larger LLMs,
both good -- such as the ability to ``think step by step" or perform some
rudimentary in-context learning -- and bad, including hallucinations and the
potential for toxic and biased generations -- encouragingly though, we are
seeing improvement on that front thanks to the absence of web data. We
open-source phi-1.5 to promote further research on these urgent
topics.