Pré-entraînement par instruction : Les modèles de langage sont des apprenants multitâches supervisés

Résumé

Le pré-entraînement multitâche non supervisé a été la méthode clé derrière le succès récent des modèles de langage (LMs). Cependant, l'apprentissage multitâche supervisé conserve un potentiel significatif, car son passage à l'échelle lors de l'étape post-entraînement tend à améliorer la généralisation. Dans cet article, nous explorons le pré-entraînement multitâche supervisé en proposant Instruction Pre-Training, un cadre qui enrichit de manière évolutive des corpus bruts massifs avec des paires instruction-réponse pour pré-entraîner les LMs. Les paires instruction-réponse sont générées par un synthétiseur d'instructions efficace construit sur des modèles open-source. Dans nos expériences, nous synthétisons 200 millions de paires instruction-réponse couvrant plus de 40 catégories de tâches pour vérifier l'efficacité d'Instruction Pre-Training. Dans le pré-entraînement à partir de zéro, Instruction Pre-Training améliore non seulement de manière constante les modèles de base pré-entraînés, mais bénéficie également davantage d'un réglage ultérieur par instruction. Dans le pré-entraînement continu, Instruction Pre-Training permet à Llama3-8B d'être comparable, voire supérieur, à Llama3-70B. Notre modèle, code et données sont disponibles à l'adresse https://github.com/microsoft/LMOps.

English

Unsupervised multitask pre-training has been the critical method behind the recent success of language models (LMs). However, supervised multitask learning still holds significant promise, as scaling it in the post-training stage trends towards better generalization. In this paper, we explore supervised multitask pre-training by proposing Instruction Pre-Training, a framework that scalably augments massive raw corpora with instruction-response pairs to pre-train LMs. The instruction-response pairs are generated by an efficient instruction synthesizer built on open-source models. In our experiments, we synthesize 200M instruction-response pairs covering 40+ task categories to verify the effectiveness of Instruction Pre-Training. In pre-training from scratch, Instruction Pre-Training not only consistently enhances pre-trained base models but also benefits more from further instruction tuning. In continual pre-training, Instruction Pre-Training enables Llama3-8B to be comparable to or even outperform Llama3-70B. Our model, code, and data are available at https://github.com/microsoft/LMOps.

Pré-entraînement par instruction : Les modèles de langage sont des apprenants multitâches supervisés

Instruction Pre-Training: Language Models are Supervised Multitask Learners

Résumé

Support