Ensemble-Instruct : Génération de données pour le réglage par instructions avec un mélange hétérogène de modèles de langage
Ensemble-Instruct: Generating Instruction-Tuning Data with a Heterogeneous Mixture of LMs
October 21, 2023
Auteurs: Young-Suk Lee, Md Arafat Sultan, Yousef El-Kurdi, Tahira Naseem Asim Munawar, Radu Florian, Salim Roukos, Ramón Fernandez Astudillo
cs.AI
Résumé
En utilisant l'apprentissage en contexte (ICL) pour la génération de données, des techniques telles que Self-Instruct (Wang et al., 2023) ou son successeur Alpaca (Taori et al., 2023) permettent d'entraîner des agents conversationnels performants avec seulement une faible supervision humaine. Une limitation de ces approches est qu'elles recourent à des modèles de langage très volumineux (environ 175 milliards de paramètres) qui sont également propriétaires et non publics. Ici, nous explorons l'application de telles techniques à des modèles de langage beaucoup plus petits (environ 10 à 40 milliards de paramètres) et dotés de licences permissives. Nous constatons que l'approche Self-Instruct est moins efficace à ces tailles et proposons de nouvelles méthodes ICL qui s'appuient sur deux idées principales : (a) la catégorisation et la simplification des modèles ICL pour faciliter l'apprentissage des prompts par le modèle de langage, et (b) l'assemblage de multiples sorties de modèles de langage pour aider à sélectionner des exemples synthétiques de haute qualité. Notre algorithme exploite les 175 tâches de départ de Self-Instruct et utilise des pipelines distincts pour les instructions nécessitant une entrée et celles qui n'en nécessitent pas. Les investigations empiriques avec différents modèles de langage montrent que : (1) notre méthode proposée produit des données de réglage d'instructions de meilleure qualité que Self-Instruct, (2) elle améliore significativement les performances des modèles de langage standard et des modèles réglés sur instructions, et (3) les modèles de langage plus petits réglés sur instructions génèrent des sorties plus utiles que leurs homologues plus grands non réglés. Notre codebase est disponible à l'adresse https://github.com/IBM/ensemble-instruct.
English
Using in-context learning (ICL) for data generation, techniques such as
Self-Instruct (Wang et al., 2023) or the follow-up Alpaca (Taori et al., 2023)
can train strong conversational agents with only a small amount of human
supervision. One limitation of these approaches is that they resort to very
large language models (around 175B parameters) that are also proprietary and
non-public. Here we explore the application of such techniques to language
models that are much smaller (around 10B--40B parameters) and have permissive
licenses. We find the Self-Instruct approach to be less effective at these
sizes and propose new ICL methods that draw on two main ideas: (a)
Categorization and simplification of the ICL templates to make prompt learning
easier for the LM, and (b) Ensembling over multiple LM outputs to help select
high-quality synthetic examples. Our algorithm leverages the 175 Self-Instruct
seed tasks and employs separate pipelines for instructions that require an
input and instructions that do not. Empirical investigations with different LMs
show that: (1) Our proposed method yields higher-quality instruction tuning
data than Self-Instruct, (2) It improves performances of both vanilla and
instruction-tuned LMs by significant margins, and (3) Smaller instruction-tuned
LMs generate more useful outputs than their larger un-tuned counterparts. Our
codebase is available at https://github.com/IBM/ensemble-instruct.