Lehrbücher sind alles, was Sie brauchen.

Zusammenfassung

Wir stellen phi-1 vor, ein neues großes Sprachmodell für Code, das deutlich kleiner ist als konkurrierende Modelle: phi-1 ist ein Transformer-basiertes Modell mit 1,3 Milliarden Parametern, das über 4 Tage auf 8 A100-GPUs trainiert wurde. Dabei wurde eine Auswahl von „Lehrbuchqualität“-Daten aus dem Web (6 Milliarden Tokens) sowie synthetisch generierte Lehrbücher und Übungen mit GPT-3.5 (1 Milliarde Tokens) verwendet. Trotz dieses geringen Umfangs erreicht phi-1 eine Pass@1-Genauigkeit von 50,6 % auf HumanEval und 55,5 % auf MBPP. Es zeigt auch überraschende emergente Eigenschaften im Vergleich zu phi-1-base, unserem Modell vor der Feinabstimmung auf einem Datensatz von Programmierübungen, und phi-1-small, einem kleineren Modell mit 350 Millionen Parametern, das mit derselben Pipeline wie phi-1 trainiert wurde und dennoch 45 % auf HumanEval erreicht.

English

We introduce phi-1, a new large language model for code, with significantly smaller size than competing models: phi-1 is a Transformer-based model with 1.3B parameters, trained for 4 days on 8 A100s, using a selection of ``textbook quality" data from the web (6B tokens) and synthetically generated textbooks and exercises with GPT-3.5 (1B tokens). Despite this small scale, phi-1 attains pass@1 accuracy 50.6% on HumanEval and 55.5% on MBPP. It also displays surprising emergent properties compared to phi-1-base, our model before our finetuning stage on a dataset of coding exercises, and phi-1-small, a smaller model with 350M parameters trained with the same pipeline as phi-1 that still achieves 45% on HumanEval.

Lehrbücher sind alles, was Sie brauchen.

Textbooks Are All You Need

Zusammenfassung

Support