ChatPaper.aiChatPaper

Учебники — это всё, что вам нужно II: технический отчет о phi-1.5

Textbooks Are All You Need II: phi-1.5 technical report

September 11, 2023
Авторы: Yuanzhi Li, Sébastien Bubeck, Ronen Eldan, Allie Del Giorno, Suriya Gunasekar, Yin Tat Lee
cs.AI

Аннотация

Мы продолжаем исследование возможностей небольших языковых моделей на основе архитектуры Transformer, начатое с TinyStories — модели с 10 миллионами параметров, способной генерировать связный английский текст, и последующей работы над phi-1 — моделью с 1,3 миллиардами параметров, демонстрирующей производительность в написании кода на Python, близкую к современным стандартам. В последней работе было предложено использовать существующие крупные языковые модели (LLM) для генерации данных «учебного качества» как способа улучшения процесса обучения по сравнению с традиционными веб-данными. Мы следуем подходу «Textbooks Are All You Need», на этот раз сосредоточившись на здравом смысле в естественном языке, и создаем новую модель с 1,3 миллиардами параметров под названием phi-1.5. Ее производительность в задачах обработки естественного языка сравнима с моделями в 5 раз большего размера, а в более сложных задачах, таких как математика начальной школы и базовое программирование, она превосходит большинство непередовых LLM. В целом, phi-1.5 демонстрирует многие черты гораздо более крупных LLM, как положительные — например, способность «мыслить шаг за шагом» или выполнять элементарное обучение в контексте, — так и отрицательные, включая галлюцинации и склонность к генерации токсичного и предвзятого контента. Однако обнадеживает то, что мы наблюдаем улучшения в этом аспекте благодаря отсутствию веб-данных. Мы открываем исходный код phi-1.5, чтобы способствовать дальнейшим исследованиям в этих актуальных направлениях.
English
We continue the investigation into the power of smaller Transformer-based language models as initiated by TinyStories -- a 10 million parameter model that can produce coherent English -- and the follow-up work on phi-1, a 1.3 billion parameter model with Python coding performance close to the state-of-the-art. The latter work proposed to use existing Large Language Models (LLMs) to generate ``textbook quality" data as a way to enhance the learning process compared to traditional web data. We follow the ``Textbooks Are All You Need" approach, focusing this time on common sense reasoning in natural language, and create a new 1.3 billion parameter model named phi-1.5, with performance on natural language tasks comparable to models 5x larger, and surpassing most non-frontier LLMs on more complex reasoning tasks such as grade-school mathematics and basic coding. More generally, phi-1.5 exhibits many of the traits of much larger LLMs, both good -- such as the ability to ``think step by step" or perform some rudimentary in-context learning -- and bad, including hallucinations and the potential for toxic and biased generations -- encouragingly though, we are seeing improvement on that front thanks to the absence of web data. We open-source phi-1.5 to promote further research on these urgent topics.
PDF875December 15, 2024