Pré-entraînement par instruction : Les modèles de langage sont des apprenants multitâches supervisés
Instruction Pre-Training: Language Models are Supervised Multitask Learners
June 20, 2024
Auteurs: Daixuan Cheng, Yuxian Gu, Shaohan Huang, Junyu Bi, Minlie Huang, Furu Wei
cs.AI
Résumé
Le pré-entraînement multitâche non supervisé a été la méthode clé derrière le succès récent des modèles de langage (LMs). Cependant, l'apprentissage multitâche supervisé conserve un potentiel significatif, car son passage à l'échelle lors de l'étape post-entraînement tend à améliorer la généralisation. Dans cet article, nous explorons le pré-entraînement multitâche supervisé en proposant Instruction Pre-Training, un cadre qui enrichit de manière évolutive des corpus bruts massifs avec des paires instruction-réponse pour pré-entraîner les LMs. Les paires instruction-réponse sont générées par un synthétiseur d'instructions efficace construit sur des modèles open-source. Dans nos expériences, nous synthétisons 200 millions de paires instruction-réponse couvrant plus de 40 catégories de tâches pour vérifier l'efficacité d'Instruction Pre-Training. Dans le pré-entraînement à partir de zéro, Instruction Pre-Training améliore non seulement de manière constante les modèles de base pré-entraînés, mais bénéficie également davantage d'un réglage ultérieur par instruction. Dans le pré-entraînement continu, Instruction Pre-Training permet à Llama3-8B d'être comparable, voire supérieur, à Llama3-70B. Notre modèle, code et données sont disponibles à l'adresse https://github.com/microsoft/LMOps.
English
Unsupervised multitask pre-training has been the critical method behind the
recent success of language models (LMs). However, supervised multitask learning
still holds significant promise, as scaling it in the post-training stage
trends towards better generalization. In this paper, we explore supervised
multitask pre-training by proposing Instruction Pre-Training, a framework that
scalably augments massive raw corpora with instruction-response pairs to
pre-train LMs. The instruction-response pairs are generated by an efficient
instruction synthesizer built on open-source models. In our experiments, we
synthesize 200M instruction-response pairs covering 40+ task categories to
verify the effectiveness of Instruction Pre-Training. In pre-training from
scratch, Instruction Pre-Training not only consistently enhances pre-trained
base models but also benefits more from further instruction tuning. In
continual pre-training, Instruction Pre-Training enables Llama3-8B to be
comparable to or even outperform Llama3-70B. Our model, code, and data are
available at https://github.com/microsoft/LMOps.Summary
AI-Generated Summary