Auto-Instruct: Automatische Instruktionsgenerierung und -bewertung für Black-Box-Sprachmodelle
Auto-Instruct: Automatic Instruction Generation and Ranking for Black-Box Language Models
October 19, 2023
Autoren: Zhihan Zhang, Shuohang Wang, Wenhao Yu, Yichong Xu, Dan Iter, Qingkai Zeng, Yang Liu, Chenguang Zhu, Meng Jiang
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) können eine Vielzahl von Aufgaben ausführen, indem sie natürliche Sprachinstruktionen befolgen, ohne dass eine aufgabenspezifische Feinabstimmung erforderlich ist. Leider wird die Leistung von LLMs stark von der Qualität dieser Instruktionen beeinflusst, und das manuelle Verfassen effektiver Instruktionen für jede Aufgabe ist ein mühsamer und subjektiver Prozess. In diesem Artikel stellen wir Auto-Instruct vor, eine neuartige Methode zur automatischen Verbesserung der Qualität von Instruktionen, die an LLMs übermittelt werden. Unsere Methode nutzt die inhärente generative Fähigkeit von LLMs, um diverse Kandidateninstruktionen für eine gegebene Aufgabe zu erzeugen, und bewertet diese anschließend mithilfe eines Bewertungsmodells, das auf einer Vielzahl von 575 bestehenden NLP-Aufgaben trainiert wurde. In Experimenten mit 118 außerhalb der Trainingsdomäne liegenden Aufgaben übertrifft Auto-Instruct sowohl von Menschen verfasste Instruktionen als auch bestehende Baselines von LLM-generierten Instruktionen. Darüber hinaus zeigt unsere Methode eine bemerkenswerte Generalisierbarkeit, selbst bei anderen LLMs, die nicht in den Trainingsprozess einbezogen wurden.
English
Large language models (LLMs) can perform a wide range of tasks by following
natural language instructions, without the necessity of task-specific
fine-tuning. Unfortunately, the performance of LLMs is greatly influenced by
the quality of these instructions, and manually writing effective instructions
for each task is a laborious and subjective process. In this paper, we
introduce Auto-Instruct, a novel method to automatically improve the quality of
instructions provided to LLMs. Our method leverages the inherent generative
ability of LLMs to produce diverse candidate instructions for a given task, and
then ranks them using a scoring model trained on a variety of 575 existing NLP
tasks. In experiments on 118 out-of-domain tasks, Auto-Instruct surpasses both
human-written instructions and existing baselines of LLM-generated
instructions. Furthermore, our method exhibits notable generalizability even
with other LLMs that are not incorporated into its training process.