Ensemble-Instruct: Het genereren van instructie-afstemmingsgegevens met een heterogeen mengsel van taalmodellen

Samenvatting

Door in-context learning (ICL) te gebruiken voor datageneratie, kunnen technieken zoals Self-Instruct (Wang et al., 2023) of de opvolger Alpaca (Taori et al., 2023) sterke conversatie-agents trainen met slechts een kleine hoeveelheid menselijke begeleiding. Een beperking van deze benaderingen is dat ze gebruikmaken van zeer grote taalmodel(len) (ongeveer 175B parameters) die ook propriëtair en niet-openbaar zijn. Hier onderzoeken we de toepassing van dergelijke technieken op taalmodel(len) die veel kleiner zijn (ongeveer 10B–40B parameters) en permissieve licenties hebben. We constateren dat de Self-Instruct-benadering minder effectief is bij deze groottes en stellen nieuwe ICL-methoden voor die voortbouwen op twee hoofdideeën: (a) Categorisering en vereenvoudiging van de ICL-sjablonen om promptlearning gemakkelijker te maken voor het taalmodel, en (b) Ensembling over meerdere taalmodel-uitvoer om te helpen bij het selecteren van hoogwaardige synthetische voorbeelden. Ons algoritme maakt gebruik van de 175 Self-Instruct-starttaken en hanteert aparte pijplijnen voor instructies die een invoer vereisen en instructies die dat niet doen. Empirisch onderzoek met verschillende taalmodel(len) toont aan dat: (1) Onze voorgestelde methode instructieafstemmingsdata van hogere kwaliteit oplevert dan Self-Instruct, (2) Het de prestaties van zowel standaard als instructie-afgestemde taalmodel(len) aanzienlijk verbetert, en (3) Kleinere instructie-afgestemde taalmodel(len) nuttigere uitvoer genereren dan hun grotere niet-afgestemde tegenhangers. Onze codebase is beschikbaar op https://github.com/IBM/ensemble-instruct.

English

Using in-context learning (ICL) for data generation, techniques such as Self-Instruct (Wang et al., 2023) or the follow-up Alpaca (Taori et al., 2023) can train strong conversational agents with only a small amount of human supervision. One limitation of these approaches is that they resort to very large language models (around 175B parameters) that are also proprietary and non-public. Here we explore the application of such techniques to language models that are much smaller (around 10B--40B parameters) and have permissive licenses. We find the Self-Instruct approach to be less effective at these sizes and propose new ICL methods that draw on two main ideas: (a) Categorization and simplification of the ICL templates to make prompt learning easier for the LM, and (b) Ensembling over multiple LM outputs to help select high-quality synthetic examples. Our algorithm leverages the 175 Self-Instruct seed tasks and employs separate pipelines for instructions that require an input and instructions that do not. Empirical investigations with different LMs show that: (1) Our proposed method yields higher-quality instruction tuning data than Self-Instruct, (2) It improves performances of both vanilla and instruction-tuned LMs by significant margins, and (3) Smaller instruction-tuned LMs generate more useful outputs than their larger un-tuned counterparts. Our codebase is available at https://github.com/IBM/ensemble-instruct.

Ensemble-Instruct: Het genereren van instructie-afstemmingsgegevens met een heterogeen mengsel van taalmodellen

Ensemble-Instruct: Generating Instruction-Tuning Data with a Heterogeneous Mixture of LMs

Samenvatting

Support