Auto-Instruct: Generación y Clasificación Automática de Instrucciones para Modelos de Lenguaje de Caja Negra
Auto-Instruct: Automatic Instruction Generation and Ranking for Black-Box Language Models
October 19, 2023
Autores: Zhihan Zhang, Shuohang Wang, Wenhao Yu, Yichong Xu, Dan Iter, Qingkai Zeng, Yang Liu, Chenguang Zhu, Meng Jiang
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) pueden realizar una amplia gama de tareas siguiendo instrucciones en lenguaje natural, sin la necesidad de un ajuste específico para cada tarea. Desafortunadamente, el rendimiento de los LLMs se ve fuertemente influenciado por la calidad de estas instrucciones, y la escritura manual de instrucciones efectivas para cada tarea es un proceso laborioso y subjetivo. En este artículo, presentamos Auto-Instruct, un método novedoso para mejorar automáticamente la calidad de las instrucciones proporcionadas a los LLMs. Nuestro método aprovecha la capacidad generativa inherente de los LLMs para producir diversas instrucciones candidatas para una tarea dada, y luego las clasifica utilizando un modelo de puntuación entrenado en una variedad de 575 tareas existentes de procesamiento de lenguaje natural (NLP). En experimentos realizados en 118 tareas fuera del dominio, Auto-Instruct supera tanto a las instrucciones escritas por humanos como a las líneas base existentes de instrucciones generadas por LLMs. Además, nuestro método exhibe una notable capacidad de generalización incluso con otros LLMs que no forman parte de su proceso de entrenamiento.
English
Large language models (LLMs) can perform a wide range of tasks by following
natural language instructions, without the necessity of task-specific
fine-tuning. Unfortunately, the performance of LLMs is greatly influenced by
the quality of these instructions, and manually writing effective instructions
for each task is a laborious and subjective process. In this paper, we
introduce Auto-Instruct, a novel method to automatically improve the quality of
instructions provided to LLMs. Our method leverages the inherent generative
ability of LLMs to produce diverse candidate instructions for a given task, and
then ranks them using a scoring model trained on a variety of 575 existing NLP
tasks. In experiments on 118 out-of-domain tasks, Auto-Instruct surpasses both
human-written instructions and existing baselines of LLM-generated
instructions. Furthermore, our method exhibits notable generalizability even
with other LLMs that are not incorporated into its training process.