Учебников Вам Достаточно

Аннотация

Мы представляем phi-1 — новую крупную языковую модель для работы с кодом, которая имеет значительно меньший размер по сравнению с конкурирующими моделями: phi-1 — это модель на основе архитектуры Transformer с 1,3 миллиардами параметров, обученная в течение 4 дней на 8 GPU A100 с использованием выборки данных «учебного качества» из интернета (6 миллиардов токенов) и синтетически сгенерированных учебников и упражнений с помощью GPT-3.5 (1 миллиард токенов). Несмотря на такой небольшой масштаб, phi-1 достигает точности pass@1 50,6% на HumanEval и 55,5% на MBPP. Она также демонстрирует удивительные эмерджентные свойства по сравнению с phi-1-base — нашей моделью до этапа тонкой настройки на наборе данных с упражнениями по программированию, и phi-1-small — меньшей моделью с 350 миллионами параметров, обученной по тому же конвейеру, что и phi-1, которая всё же достигает 45% на HumanEval.

English

We introduce phi-1, a new large language model for code, with significantly smaller size than competing models: phi-1 is a Transformer-based model with 1.3B parameters, trained for 4 days on 8 A100s, using a selection of ``textbook quality" data from the web (6B tokens) and synthetically generated textbooks and exercises with GPT-3.5 (1B tokens). Despite this small scale, phi-1 attains pass@1 accuracy 50.6% on HumanEval and 55.5% on MBPP. It also displays surprising emergent properties compared to phi-1-base, our model before our finetuning stage on a dataset of coding exercises, and phi-1-small, a smaller model with 350M parameters trained with the same pipeline as phi-1 that still achieves 45% on HumanEval.

Учебников Вам Достаточно

Textbooks Are All You Need

Аннотация

Support