Auto-Instruct : Génération et classement automatiques d'instructions pour les modèles de langage en boîte noire
Auto-Instruct: Automatic Instruction Generation and Ranking for Black-Box Language Models
October 19, 2023
Auteurs: Zhihan Zhang, Shuohang Wang, Wenhao Yu, Yichong Xu, Dan Iter, Qingkai Zeng, Yang Liu, Chenguang Zhu, Meng Jiang
cs.AI
Résumé
Les grands modèles de langage (LLMs) peuvent accomplir une large gamme de tâches en suivant des instructions en langage naturel, sans nécessiter de réglage spécifique à chaque tâche. Malheureusement, la performance des LLMs est fortement influencée par la qualité de ces instructions, et la rédaction manuelle d'instructions efficaces pour chaque tâche s'avère un processus laborieux et subjectif. Dans cet article, nous présentons Auto-Instruct, une méthode novatrice visant à améliorer automatiquement la qualité des instructions fournies aux LLMs. Notre méthode exploite la capacité générative intrinsèque des LLMs pour produire des instructions candidates diversifiées pour une tâche donnée, puis les classe à l'aide d'un modèle de scoring entraîné sur un ensemble varié de 575 tâches de traitement du langage naturel (NLP). Lors d'expériences sur 118 tâches hors domaine, Auto-Instruct surpasse à la fois les instructions rédigées par des humains et les bases de référence existantes d'instructions générées par des LLMs. De plus, notre méthode démontre une généralisation notable, même avec d'autres LLMs qui n'ont pas été intégrés dans son processus d'entraînement.
English
Large language models (LLMs) can perform a wide range of tasks by following
natural language instructions, without the necessity of task-specific
fine-tuning. Unfortunately, the performance of LLMs is greatly influenced by
the quality of these instructions, and manually writing effective instructions
for each task is a laborious and subjective process. In this paper, we
introduce Auto-Instruct, a novel method to automatically improve the quality of
instructions provided to LLMs. Our method leverages the inherent generative
ability of LLMs to produce diverse candidate instructions for a given task, and
then ranks them using a scoring model trained on a variety of 575 existing NLP
tasks. In experiments on 118 out-of-domain tasks, Auto-Instruct surpasses both
human-written instructions and existing baselines of LLM-generated
instructions. Furthermore, our method exhibits notable generalizability even
with other LLMs that are not incorporated into its training process.