指示事前学習：言語モデルは教師付きマルチタスク学習器である

要旨

教師なしマルチタスク事前学習は、最近の言語モデル（LM）の成功を支える重要な手法となっています。しかし、教師ありマルチタスク学習も依然として大きな可能性を秘めており、学習後の段階でスケーリングすることで一般化性能が向上する傾向にあります。本論文では、教師ありマルチタスク事前学習を探求するため、Instruction Pre-Trainingというフレームワークを提案します。このフレームワークは、大規模な生コーパスを命令-応答ペアで拡張し、LMを事前学習するためのものです。命令-応答ペアは、オープンソースモデルを基に構築された効率的な命令合成器によって生成されます。実験では、40以上のタスクカテゴリをカバーする2億の命令-応答ペアを合成し、Instruction Pre-Trainingの有効性を検証しました。スクラッチからの事前学習では、Instruction Pre-Trainingは事前学習済みのベースモデルを一貫して強化するだけでなく、さらなる命令チューニングからもより大きな恩恵を受けます。継続的な事前学習では、Instruction Pre-Trainingにより、Llama3-8BがLlama3-70Bに匹敵するか、それを上回る性能を発揮することが可能になりました。私たちのモデル、コード、データはhttps://github.com/microsoft/LMOpsで公開されています。

English

Unsupervised multitask pre-training has been the critical method behind the recent success of language models (LMs). However, supervised multitask learning still holds significant promise, as scaling it in the post-training stage trends towards better generalization. In this paper, we explore supervised multitask pre-training by proposing Instruction Pre-Training, a framework that scalably augments massive raw corpora with instruction-response pairs to pre-train LMs. The instruction-response pairs are generated by an efficient instruction synthesizer built on open-source models. In our experiments, we synthesize 200M instruction-response pairs covering 40+ task categories to verify the effectiveness of Instruction Pre-Training. In pre-training from scratch, Instruction Pre-Training not only consistently enhances pre-trained base models but also benefits more from further instruction tuning. In continual pre-training, Instruction Pre-Training enables Llama3-8B to be comparable to or even outperform Llama3-70B. Our model, code, and data are available at https://github.com/microsoft/LMOps.

指示事前学習：言語モデルは教師付きマルチタスク学習器である

Instruction Pre-Training: Language Models are Supervised Multitask Learners

要旨

Support