ChatPaper.aiChatPaper

Pre-Addestramento su Istruzioni: I Modelli Linguistici sono Apprendenti Multitask Supervisionati

Instruction Pre-Training: Language Models are Supervised Multitask Learners

June 20, 2024
Autori: Daixuan Cheng, Yuxian Gu, Shaohan Huang, Junyu Bi, Minlie Huang, Furu Wei
cs.AI

Abstract

Il pre-training multitask non supervisionato è stato il metodo cruciale dietro il recente successo dei modelli linguistici (LM). Tuttavia, l'apprendimento multitask supervisionato mantiene ancora un potenziale significativo, poiché il suo ridimensionamento nella fase post-training tende a favorire una migliore generalizzazione. In questo articolo, esploriamo il pre-training multitask supervisionato proponendo l'Instruction Pre-Training, un framework che amplia in modo scalabile enormi corpora grezzi con coppie istruzione-risposta per pre-addestrare i LM. Le coppie istruzione-risposta sono generate da un sintetizzatore di istruzioni efficiente basato su modelli open-source. Nei nostri esperimenti, sintetizziamo 200 milioni di coppie istruzione-risposta che coprono oltre 40 categorie di task per verificare l'efficacia dell'Instruction Pre-Training. Nel pre-training da zero, l'Instruction Pre-Training non solo migliora costantemente i modelli base pre-addestrati, ma trae anche maggior beneficio da un ulteriore tuning delle istruzioni. Nel pre-training continuo, l'Instruction Pre-Training consente a Llama3-8B di essere paragonabile o addirittura superare Llama3-70B. Il nostro modello, codice e dati sono disponibili su https://github.com/microsoft/LMOps.
English
Unsupervised multitask pre-training has been the critical method behind the recent success of language models (LMs). However, supervised multitask learning still holds significant promise, as scaling it in the post-training stage trends towards better generalization. In this paper, we explore supervised multitask pre-training by proposing Instruction Pre-Training, a framework that scalably augments massive raw corpora with instruction-response pairs to pre-train LMs. The instruction-response pairs are generated by an efficient instruction synthesizer built on open-source models. In our experiments, we synthesize 200M instruction-response pairs covering 40+ task categories to verify the effectiveness of Instruction Pre-Training. In pre-training from scratch, Instruction Pre-Training not only consistently enhances pre-trained base models but also benefits more from further instruction tuning. In continual pre-training, Instruction Pre-Training enables Llama3-8B to be comparable to or even outperform Llama3-70B. Our model, code, and data are available at https://github.com/microsoft/LMOps.
PDF9525December 2, 2024