Instructie Vooraf Trainen: Taalmodellen zijn Toezichthoudende Multitask Leerders
Instruction Pre-Training: Language Models are Supervised Multitask Learners
June 20, 2024
Auteurs: Daixuan Cheng, Yuxian Gu, Shaohan Huang, Junyu Bi, Minlie Huang, Furu Wei
cs.AI
Samenvatting
Onbewaakt multitask-pre-training is de cruciale methode geweest achter het
recente succes van taalmodelen (LMs). Toch blijft bewaakt multitask-leren
aanzienlijke belofte houden, aangezien het opschalen ervan in de post-trainingsfase
neigt naar betere generalisatie. In dit artikel onderzoeken we bewaakt
multitask-pre-training door Instruction Pre-Training voor te stellen, een raamwerk
dat op schaalbare wijze enorme ruwe corpora verrijkt met instructie-responsparen om
LMs voor te trainen. De instructie-responsparen worden gegenereerd door een
efficiënte instructiesynthesizer die is gebouwd op open-source modellen. In onze
experimenten synthetiseren we 200M instructie-responsparen die meer dan 40
taakcategorieën beslaan om de effectiviteit van Instruction Pre-Training te
verifiëren. Bij pre-training vanaf nul verbetert Instruction Pre-Training niet
alleen consistent de voorgetrainde basismodellen, maar profiteert het ook meer van
verdere instructieafstemming. Bij voortgezette pre-training stelt Instruction
Pre-Training Llama3-8B in staat om vergelijkbaar te zijn met of zelfs Llama3-70B
te overtreffen. Ons model, code en data zijn beschikbaar op
https://github.com/microsoft/LMOps.
English
Unsupervised multitask pre-training has been the critical method behind the
recent success of language models (LMs). However, supervised multitask learning
still holds significant promise, as scaling it in the post-training stage
trends towards better generalization. In this paper, we explore supervised
multitask pre-training by proposing Instruction Pre-Training, a framework that
scalably augments massive raw corpora with instruction-response pairs to
pre-train LMs. The instruction-response pairs are generated by an efficient
instruction synthesizer built on open-source models. In our experiments, we
synthesize 200M instruction-response pairs covering 40+ task categories to
verify the effectiveness of Instruction Pre-Training. In pre-training from
scratch, Instruction Pre-Training not only consistently enhances pre-trained
base models but also benefits more from further instruction tuning. In
continual pre-training, Instruction Pre-Training enables Llama3-8B to be
comparable to or even outperform Llama3-70B. Our model, code, and data are
available at https://github.com/microsoft/LMOps.