Textbooks Zijn Alles Wat Je Nodig Hebt

Samenvatting

We introduceren phi-1, een nieuw groot taalmodel voor code, met een aanzienlijk kleinere omvang dan concurrerende modellen: phi-1 is een Transformer-gebaseerd model met 1,3 miljard parameters, getraind gedurende 4 dagen op 8 A100's, met behulp van een selectie van "leerboekkwaliteit" data van het web (6 miljard tokens) en synthetisch gegenereerde leerboeken en oefeningen met GPT-3.5 (1 miljard tokens). Ondanks deze kleine schaal behaalt phi-1 een pass@1 nauwkeurigheid van 50,6% op HumanEval en 55,5% op MBPP. Het vertoont ook verrassende emergente eigenschappen in vergelijking met phi-1-base, ons model vóór de fine-tuning fase op een dataset van codeeroefeningen, en phi-1-small, een kleiner model met 350 miljoen parameters dat met dezelfde pipeline als phi-1 is getraind en nog steeds 45% op HumanEval behaalt.

English

We introduce phi-1, a new large language model for code, with significantly smaller size than competing models: phi-1 is a Transformer-based model with 1.3B parameters, trained for 4 days on 8 A100s, using a selection of ``textbook quality" data from the web (6B tokens) and synthetically generated textbooks and exercises with GPT-3.5 (1B tokens). Despite this small scale, phi-1 attains pass@1 accuracy 50.6% on HumanEval and 55.5% on MBPP. It also displays surprising emergent properties compared to phi-1-base, our model before our finetuning stage on a dataset of coding exercises, and phi-1-small, a smaller model with 350M parameters trained with the same pipeline as phi-1 that still achieves 45% on HumanEval.

Textbooks Zijn Alles Wat Je Nodig Hebt

Textbooks Are All You Need

Samenvatting

Support