Учебников Вам Достаточно
Textbooks Are All You Need
June 20, 2023
Авторы: Suriya Gunasekar, Yi Zhang, Jyoti Aneja, Caio César Teodoro Mendes, Allie Del Giorno, Sivakanth Gopi, Mojan Javaheripi, Piero Kauffmann, Gustavo de Rosa, Olli Saarikivi, Adil Salim, Shital Shah, Harkirat Singh Behl, Xin Wang, Sébastien Bubeck, Ronen Eldan, Adam Tauman Kalai, Yin Tat Lee, Yuanzhi Li
cs.AI
Аннотация
Мы представляем phi-1 — новую крупную языковую модель для работы с кодом, которая имеет значительно меньший размер по сравнению с конкурирующими моделями: phi-1 — это модель на основе архитектуры Transformer с 1,3 миллиардами параметров, обученная в течение 4 дней на 8 GPU A100 с использованием выборки данных «учебного качества» из интернета (6 миллиардов токенов) и синтетически сгенерированных учебников и упражнений с помощью GPT-3.5 (1 миллиард токенов). Несмотря на такой небольшой масштаб, phi-1 достигает точности pass@1 50,6% на HumanEval и 55,5% на MBPP. Она также демонстрирует удивительные эмерджентные свойства по сравнению с phi-1-base — нашей моделью до этапа тонкой настройки на наборе данных с упражнениями по программированию, и phi-1-small — меньшей моделью с 350 миллионами параметров, обученной по тому же конвейеру, что и phi-1, которая всё же достигает 45% на HumanEval.
English
We introduce phi-1, a new large language model for code, with significantly
smaller size than competing models: phi-1 is a Transformer-based model with
1.3B parameters, trained for 4 days on 8 A100s, using a selection of ``textbook
quality" data from the web (6B tokens) and synthetically generated textbooks
and exercises with GPT-3.5 (1B tokens). Despite this small scale, phi-1 attains
pass@1 accuracy 50.6% on HumanEval and 55.5% on MBPP. It also displays
surprising emergent properties compared to phi-1-base, our model before our
finetuning stage on a dataset of coding exercises, and phi-1-small, a smaller
model with 350M parameters trained with the same pipeline as phi-1 that still
achieves 45% on HumanEval.