Anleitung zur Vorab-Trainierung: Sprachmodelle sind überwachte Multitask-Lerner.
Instruction Pre-Training: Language Models are Supervised Multitask Learners
June 20, 2024
Autoren: Daixuan Cheng, Yuxian Gu, Shaohan Huang, Junyu Bi, Minlie Huang, Furu Wei
cs.AI
Zusammenfassung
Unüberwachtes Multitask-Vortraining war die entscheidende Methode hinter dem
jüngsten Erfolg von Sprachmodellen (LMs). Dennoch birgt überwachtes Multitask-Lernen
weiterhin ein signifikantes Potenzial, da die Skalierung im Post-Training
zu einer besseren Verallgemeinerung führt. In diesem Paper erforschen wir überwachtes
Multitask-Vortraining, indem wir das Instruktions-Vortraining vorschlagen, ein Framework, das
massive Rohkorpora skalierbar mit Instruktions-Antwort-Paaren erweitert, um
LMs vorzutrainieren. Die Instruktions-Antwort-Paare werden von einem effizienten
Instruktions-Synthesizer generiert, der auf Open-Source-Modellen basiert. In unseren Experimenten
synthetisieren wir 200 Millionen Instruktions-Antwort-Paare, die über 40 Aufgabenkategorien abdecken, um
die Wirksamkeit des Instruktions-Vortrainings zu überprüfen. Beim Vortraining von
Grund auf verbessert das Instruktions-Vortraining nicht nur konsistent die vorab trainierten
Basismodelle, sondern profitiert auch mehr von weiterer Instruktionsfeinabstimmung. Im
kontinuierlichen Vortraining ermöglicht das Instruktions-Vortraining, dass Llama3-8B
mit Llama3-70B vergleichbar oder sogar besser abschneidet. Unser Modell, Code und Daten
sind verfügbar unter https://github.com/microsoft/LMOps.
English
Unsupervised multitask pre-training has been the critical method behind the
recent success of language models (LMs). However, supervised multitask learning
still holds significant promise, as scaling it in the post-training stage
trends towards better generalization. In this paper, we explore supervised
multitask pre-training by proposing Instruction Pre-Training, a framework that
scalably augments massive raw corpora with instruction-response pairs to
pre-train LMs. The instruction-response pairs are generated by an efficient
instruction synthesizer built on open-source models. In our experiments, we
synthesize 200M instruction-response pairs covering 40+ task categories to
verify the effectiveness of Instruction Pre-Training. In pre-training from
scratch, Instruction Pre-Training not only consistently enhances pre-trained
base models but also benefits more from further instruction tuning. In
continual pre-training, Instruction Pre-Training enables Llama3-8B to be
comparable to or even outperform Llama3-70B. Our model, code, and data are
available at https://github.com/microsoft/LMOps.Summary
AI-Generated Summary