指示事前学習:言語モデルは教師付きマルチタスク学習器である
Instruction Pre-Training: Language Models are Supervised Multitask Learners
June 20, 2024
著者: Daixuan Cheng, Yuxian Gu, Shaohan Huang, Junyu Bi, Minlie Huang, Furu Wei
cs.AI
要旨
教師なしマルチタスク事前学習は、最近の言語モデル(LM)の成功を支える重要な手法となっています。しかし、教師ありマルチタスク学習も依然として大きな可能性を秘めており、学習後の段階でスケーリングすることで一般化性能が向上する傾向にあります。本論文では、教師ありマルチタスク事前学習を探求するため、Instruction Pre-Trainingというフレームワークを提案します。このフレームワークは、大規模な生コーパスを命令-応答ペアで拡張し、LMを事前学習するためのものです。命令-応答ペアは、オープンソースモデルを基に構築された効率的な命令合成器によって生成されます。実験では、40以上のタスクカテゴリをカバーする2億の命令-応答ペアを合成し、Instruction Pre-Trainingの有効性を検証しました。スクラッチからの事前学習では、Instruction Pre-Trainingは事前学習済みのベースモデルを一貫して強化するだけでなく、さらなる命令チューニングからもより大きな恩恵を受けます。継続的な事前学習では、Instruction Pre-Trainingにより、Llama3-8BがLlama3-70Bに匹敵するか、それを上回る性能を発揮することが可能になりました。私たちのモデル、コード、データはhttps://github.com/microsoft/LMOpsで公開されています。
English
Unsupervised multitask pre-training has been the critical method behind the
recent success of language models (LMs). However, supervised multitask learning
still holds significant promise, as scaling it in the post-training stage
trends towards better generalization. In this paper, we explore supervised
multitask pre-training by proposing Instruction Pre-Training, a framework that
scalably augments massive raw corpora with instruction-response pairs to
pre-train LMs. The instruction-response pairs are generated by an efficient
instruction synthesizer built on open-source models. In our experiments, we
synthesize 200M instruction-response pairs covering 40+ task categories to
verify the effectiveness of Instruction Pre-Training. In pre-training from
scratch, Instruction Pre-Training not only consistently enhances pre-trained
base models but also benefits more from further instruction tuning. In
continual pre-training, Instruction Pre-Training enables Llama3-8B to be
comparable to or even outperform Llama3-70B. Our model, code, and data are
available at https://github.com/microsoft/LMOps.Summary
AI-Generated Summary