I Libri di Testo Sono Tutto Ciò di Cui Hai Bisogno

Abstract

Presentiamo phi-1, un nuovo modello linguistico di grandi dimensioni per il codice, con dimensioni significativamente più ridotte rispetto ai modelli concorrenti: phi-1 è un modello basato su Transformer con 1,3 miliardi di parametri, addestrato per 4 giorni su 8 GPU A100, utilizzando una selezione di dati di "qualità da manuale" provenienti dal web (6 miliardi di token) e manuali ed esercizi generati sinteticamente con GPT-3.5 (1 miliardo di token). Nonostante questa scala ridotta, phi-1 raggiunge un'accuratezza pass@1 del 50,6% su HumanEval e del 55,5% su MBPP. Inoltre, mostra proprietà emergenti sorprendenti rispetto a phi-1-base, il nostro modello prima della fase di fine-tuning su un dataset di esercizi di programmazione, e phi-1-small, un modello più piccolo con 350 milioni di parametri addestrato con la stessa pipeline di phi-1 che raggiunge comunque il 45% su HumanEval.

English

We introduce phi-1, a new large language model for code, with significantly smaller size than competing models: phi-1 is a Transformer-based model with 1.3B parameters, trained for 4 days on 8 A100s, using a selection of ``textbook quality" data from the web (6B tokens) and synthetically generated textbooks and exercises with GPT-3.5 (1B tokens). Despite this small scale, phi-1 attains pass@1 accuracy 50.6% on HumanEval and 55.5% on MBPP. It also displays surprising emergent properties compared to phi-1-base, our model before our finetuning stage on a dataset of coding exercises, and phi-1-small, a smaller model with 350M parameters trained with the same pipeline as phi-1 that still achieves 45% on HumanEval.

I Libri di Testo Sono Tutto Ciò di Cui Hai Bisogno

Textbooks Are All You Need

Abstract

Support