Ensemble-Instruct: Erzeugung von Instruktions-Finetuning-Daten mit einem heterogenen Gemisch von Sprachmodellen

papers.abstract

Durch die Verwendung von In-Context-Learning (ICL) zur Datengenerierung können Techniken wie Self-Instruct (Wang et al., 2023) oder das darauf aufbauende Alpaca (Taori et al., 2023) leistungsstarke Konversationsagenten mit nur geringer menschlicher Aufsicht trainieren. Eine Einschränkung dieser Ansätze besteht darin, dass sie auf sehr große Sprachmodelle (mit etwa 175 Milliarden Parametern) zurückgreifen, die zudem proprietär und nicht öffentlich zugänglich sind. Hier untersuchen wir die Anwendung solcher Techniken auf Sprachmodelle, die deutlich kleiner sind (etwa 10–40 Milliarden Parameter) und unter freizügigen Lizenzen stehen. Wir stellen fest, dass der Self-Instruct-Ansatz bei diesen Größen weniger effektiv ist und schlagen neue ICL-Methoden vor, die auf zwei Hauptideen basieren: (a) Kategorisierung und Vereinfachung der ICL-Vorlagen, um das Prompt-Lernen für das Sprachmodell zu erleichtern, und (b) Ensembling über mehrere Modellausgaben, um hochwertige synthetische Beispiele auszuwählen. Unser Algorithmus nutzt die 175 Self-Instruct-Startaufgaben und verwendet separate Pipelines für Anweisungen, die eine Eingabe erfordern, und solche, die dies nicht tun. Empirische Untersuchungen mit verschiedenen Sprachmodellen zeigen: (1) Unsere vorgeschlagene Methode liefert qualitativ hochwertigere Daten für das Instruction-Tuning als Self-Instruct, (2) Sie verbessert die Leistung sowohl von Standard- als auch von Instruction-getunten Sprachmodellen erheblich, und (3) Kleinere Instruction-getunte Sprachmodelle erzeugen nützlichere Ausgaben als ihre größeren, nicht getunten Gegenstücke. Unser Codebase ist unter https://github.com/IBM/ensemble-instruct verfügbar.

English

Using in-context learning (ICL) for data generation, techniques such as Self-Instruct (Wang et al., 2023) or the follow-up Alpaca (Taori et al., 2023) can train strong conversational agents with only a small amount of human supervision. One limitation of these approaches is that they resort to very large language models (around 175B parameters) that are also proprietary and non-public. Here we explore the application of such techniques to language models that are much smaller (around 10B--40B parameters) and have permissive licenses. We find the Self-Instruct approach to be less effective at these sizes and propose new ICL methods that draw on two main ideas: (a) Categorization and simplification of the ICL templates to make prompt learning easier for the LM, and (b) Ensembling over multiple LM outputs to help select high-quality synthetic examples. Our algorithm leverages the 175 Self-Instruct seed tasks and employs separate pipelines for instructions that require an input and instructions that do not. Empirical investigations with different LMs show that: (1) Our proposed method yields higher-quality instruction tuning data than Self-Instruct, (2) It improves performances of both vanilla and instruction-tuned LMs by significant margins, and (3) Smaller instruction-tuned LMs generate more useful outputs than their larger un-tuned counterparts. Our codebase is available at https://github.com/IBM/ensemble-instruct.

Ensemble-Instruct: Erzeugung von Instruktions-Finetuning-Daten mit einem heterogenen Gemisch von Sprachmodellen

Ensemble-Instruct: Generating Instruction-Tuning Data with a Heterogeneous Mixture of LMs

papers.abstract

Support