Auto-Instruct: Automatische Instructiegeneratie en Rangschikking voor Black-Box Taalmodellen
Auto-Instruct: Automatic Instruction Generation and Ranking for Black-Box Language Models
October 19, 2023
Auteurs: Zhihan Zhang, Shuohang Wang, Wenhao Yu, Yichong Xu, Dan Iter, Qingkai Zeng, Yang Liu, Chenguang Zhu, Meng Jiang
cs.AI
Samenvatting
Grote taalmodellen (LLMs) kunnen een breed scala aan taken uitvoeren door natuurlijke taal instructies te volgen, zonder dat taakspecifieke fine-tuning noodzakelijk is. Helaas wordt de prestaties van LLMs sterk beïnvloed door de kwaliteit van deze instructies, en het handmatig schrijven van effectieve instructies voor elke taak is een arbeidsintensief en subjectief proces. In dit artikel introduceren we Auto-Instruct, een nieuwe methode om de kwaliteit van instructies die aan LLMs worden gegeven automatisch te verbeteren. Onze methode maakt gebruik van het inherente generatieve vermogen van LLMs om diverse kandidaat-instructies voor een bepaalde taak te produceren, en rangschikt deze vervolgens met behulp van een scoringsmodel dat is getraind op een verscheidenheid van 575 bestaande NLP-taken. In experimenten op 118 taken buiten het domein overtreft Auto-Instruct zowel door mensen geschreven instructies als bestaande baselines van door LLM gegenereerde instructies. Bovendien toont onze methode opmerkelijke generaliseerbaarheid, zelfs met andere LLMs die niet in het trainingsproces zijn opgenomen.
English
Large language models (LLMs) can perform a wide range of tasks by following
natural language instructions, without the necessity of task-specific
fine-tuning. Unfortunately, the performance of LLMs is greatly influenced by
the quality of these instructions, and manually writing effective instructions
for each task is a laborious and subjective process. In this paper, we
introduce Auto-Instruct, a novel method to automatically improve the quality of
instructions provided to LLMs. Our method leverages the inherent generative
ability of LLMs to produce diverse candidate instructions for a given task, and
then ranks them using a scoring model trained on a variety of 575 existing NLP
tasks. In experiments on 118 out-of-domain tasks, Auto-Instruct surpasses both
human-written instructions and existing baselines of LLM-generated
instructions. Furthermore, our method exhibits notable generalizability even
with other LLMs that are not incorporated into its training process.