GPT4Tools: Enseñando a los Modelos de Lenguaje de Gran Escala a Utilizar Herramientas mediante Autoinstrucción
GPT4Tools: Teaching Large Language Model to Use Tools via Self-instruction
May 30, 2023
Autores: Rui Yang, Lin Song, Yanwei Li, Sijie Zhao, Yixiao Ge, Xiu Li, Ying Shan
cs.AI
Resumen
Este artículo tiene como objetivo permitir de manera eficiente que los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) utilicen herramientas multimodales. Los LLMs avanzados de propiedad privada, como ChatGPT y GPT-4, han demostrado un gran potencial para el uso de herramientas mediante ingeniería de prompts sofisticada. Sin embargo, estos modelos suelen depender de costos computacionales prohibitivos y datos inaccesibles al público. Para abordar estos desafíos, proponemos GPT4Tools basado en auto-instrucción para permitir que LLMs de código abierto, como LLaMA y OPT, utilicen herramientas. Este método genera un conjunto de datos de seguimiento de instrucciones al solicitar a un modelo avanzado (teacher) diversos contextos multimodales. Mediante el uso de la optimización Low-Rank Adaptation (LoRA), nuestro enfoque facilita que los LLMs de código abierto resuelvan una variedad de problemas visuales, incluyendo comprensión visual y generación de imágenes. Además, proporcionamos un benchmark para evaluar la capacidad de los LLMs para utilizar herramientas, que se realiza tanto en modo zero-shot como mediante fine-tuning. Experimentos extensos demuestran la efectividad de nuestro método en varios modelos de lenguaje, lo que no solo mejora significativamente la precisión al invocar herramientas conocidas, sino que también habilita la capacidad zero-shot para herramientas no vistas. El código y la demo están disponibles en https://github.com/StevenGrove/GPT4Tools.
English
This paper aims to efficiently enable Large Language Models (LLMs) to use
multimodal tools. Advanced proprietary LLMs, such as ChatGPT and GPT-4, have
shown great potential for tool usage through sophisticated prompt engineering.
Nevertheless, these models typically rely on prohibitive computational costs
and publicly inaccessible data. To address these challenges, we propose the
GPT4Tools based on self-instruct to enable open-source LLMs, such as LLaMA and
OPT, to use tools. It generates an instruction-following dataset by prompting
an advanced teacher with various multi-modal contexts. By using the Low-Rank
Adaptation (LoRA) optimization, our approach facilitates the open-source LLMs
to solve a range of visual problems, including visual comprehension and image
generation. Moreover, we provide a benchmark to evaluate the ability of LLMs to
use tools, which is performed in both zero-shot and fine-tuning ways. Extensive
experiments demonstrate the effectiveness of our method on various language
models, which not only significantly improves the accuracy of invoking seen
tools, but also enables the zero-shot capacity for unseen tools. The code and
demo are available at https://github.com/StevenGrove/GPT4Tools.