Lehrbücher sind alles, was Sie brauchen.
Textbooks Are All You Need
June 20, 2023
Autoren: Suriya Gunasekar, Yi Zhang, Jyoti Aneja, Caio César Teodoro Mendes, Allie Del Giorno, Sivakanth Gopi, Mojan Javaheripi, Piero Kauffmann, Gustavo de Rosa, Olli Saarikivi, Adil Salim, Shital Shah, Harkirat Singh Behl, Xin Wang, Sébastien Bubeck, Ronen Eldan, Adam Tauman Kalai, Yin Tat Lee, Yuanzhi Li
cs.AI
Zusammenfassung
Wir stellen phi-1 vor, ein neues großes Sprachmodell für Code, das deutlich kleiner ist als konkurrierende Modelle: phi-1 ist ein Transformer-basiertes Modell mit 1,3 Milliarden Parametern, das über 4 Tage auf 8 A100-GPUs trainiert wurde. Dabei wurde eine Auswahl von „Lehrbuchqualität“-Daten aus dem Web (6 Milliarden Tokens) sowie synthetisch generierte Lehrbücher und Übungen mit GPT-3.5 (1 Milliarde Tokens) verwendet. Trotz dieses geringen Umfangs erreicht phi-1 eine Pass@1-Genauigkeit von 50,6 % auf HumanEval und 55,5 % auf MBPP. Es zeigt auch überraschende emergente Eigenschaften im Vergleich zu phi-1-base, unserem Modell vor der Feinabstimmung auf einem Datensatz von Programmierübungen, und phi-1-small, einem kleineren Modell mit 350 Millionen Parametern, das mit derselben Pipeline wie phi-1 trainiert wurde und dennoch 45 % auf HumanEval erreicht.
English
We introduce phi-1, a new large language model for code, with significantly
smaller size than competing models: phi-1 is a Transformer-based model with
1.3B parameters, trained for 4 days on 8 A100s, using a selection of ``textbook
quality" data from the web (6B tokens) and synthetically generated textbooks
and exercises with GPT-3.5 (1B tokens). Despite this small scale, phi-1 attains
pass@1 accuracy 50.6% on HumanEval and 55.5% on MBPP. It also displays
surprising emergent properties compared to phi-1-base, our model before our
finetuning stage on a dataset of coding exercises, and phi-1-small, a smaller
model with 350M parameters trained with the same pipeline as phi-1 that still
achieves 45% on HumanEval.