ChatPaper.aiChatPaper

Textbooks Zijn Alles Wat Je Nodig Hebt

Textbooks Are All You Need

June 20, 2023
Auteurs: Suriya Gunasekar, Yi Zhang, Jyoti Aneja, Caio César Teodoro Mendes, Allie Del Giorno, Sivakanth Gopi, Mojan Javaheripi, Piero Kauffmann, Gustavo de Rosa, Olli Saarikivi, Adil Salim, Shital Shah, Harkirat Singh Behl, Xin Wang, Sébastien Bubeck, Ronen Eldan, Adam Tauman Kalai, Yin Tat Lee, Yuanzhi Li
cs.AI

Samenvatting

We introduceren phi-1, een nieuw groot taalmodel voor code, met een aanzienlijk kleinere omvang dan concurrerende modellen: phi-1 is een Transformer-gebaseerd model met 1,3 miljard parameters, getraind gedurende 4 dagen op 8 A100's, met behulp van een selectie van "leerboekkwaliteit" data van het web (6 miljard tokens) en synthetisch gegenereerde leerboeken en oefeningen met GPT-3.5 (1 miljard tokens). Ondanks deze kleine schaal behaalt phi-1 een pass@1 nauwkeurigheid van 50,6% op HumanEval en 55,5% op MBPP. Het vertoont ook verrassende emergente eigenschappen in vergelijking met phi-1-base, ons model vóór de fine-tuning fase op een dataset van codeeroefeningen, en phi-1-small, een kleiner model met 350 miljoen parameters dat met dezelfde pipeline als phi-1 is getraind en nog steeds 45% op HumanEval behaalt.
English
We introduce phi-1, a new large language model for code, with significantly smaller size than competing models: phi-1 is a Transformer-based model with 1.3B parameters, trained for 4 days on 8 A100s, using a selection of ``textbook quality" data from the web (6B tokens) and synthetically generated textbooks and exercises with GPT-3.5 (1B tokens). Despite this small scale, phi-1 attains pass@1 accuracy 50.6% on HumanEval and 55.5% on MBPP. It also displays surprising emergent properties compared to phi-1-base, our model before our finetuning stage on a dataset of coding exercises, and phi-1-small, a smaller model with 350M parameters trained with the same pipeline as phi-1 that still achieves 45% on HumanEval.
PDF14614December 15, 2024