ChatPaper.aiChatPaper

GPT4Tools: Enseñando a los Modelos de Lenguaje de Gran Escala a Utilizar Herramientas mediante Autoinstrucción

GPT4Tools: Teaching Large Language Model to Use Tools via Self-instruction

May 30, 2023
Autores: Rui Yang, Lin Song, Yanwei Li, Sijie Zhao, Yixiao Ge, Xiu Li, Ying Shan
cs.AI

Resumen

Este artículo tiene como objetivo permitir de manera eficiente que los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) utilicen herramientas multimodales. Los LLMs avanzados de propiedad privada, como ChatGPT y GPT-4, han demostrado un gran potencial para el uso de herramientas mediante ingeniería de prompts sofisticada. Sin embargo, estos modelos suelen depender de costos computacionales prohibitivos y datos inaccesibles al público. Para abordar estos desafíos, proponemos GPT4Tools basado en auto-instrucción para permitir que LLMs de código abierto, como LLaMA y OPT, utilicen herramientas. Este método genera un conjunto de datos de seguimiento de instrucciones al solicitar a un modelo avanzado (teacher) diversos contextos multimodales. Mediante el uso de la optimización Low-Rank Adaptation (LoRA), nuestro enfoque facilita que los LLMs de código abierto resuelvan una variedad de problemas visuales, incluyendo comprensión visual y generación de imágenes. Además, proporcionamos un benchmark para evaluar la capacidad de los LLMs para utilizar herramientas, que se realiza tanto en modo zero-shot como mediante fine-tuning. Experimentos extensos demuestran la efectividad de nuestro método en varios modelos de lenguaje, lo que no solo mejora significativamente la precisión al invocar herramientas conocidas, sino que también habilita la capacidad zero-shot para herramientas no vistas. El código y la demo están disponibles en https://github.com/StevenGrove/GPT4Tools.
English
This paper aims to efficiently enable Large Language Models (LLMs) to use multimodal tools. Advanced proprietary LLMs, such as ChatGPT and GPT-4, have shown great potential for tool usage through sophisticated prompt engineering. Nevertheless, these models typically rely on prohibitive computational costs and publicly inaccessible data. To address these challenges, we propose the GPT4Tools based on self-instruct to enable open-source LLMs, such as LLaMA and OPT, to use tools. It generates an instruction-following dataset by prompting an advanced teacher with various multi-modal contexts. By using the Low-Rank Adaptation (LoRA) optimization, our approach facilitates the open-source LLMs to solve a range of visual problems, including visual comprehension and image generation. Moreover, we provide a benchmark to evaluate the ability of LLMs to use tools, which is performed in both zero-shot and fine-tuning ways. Extensive experiments demonstrate the effectiveness of our method on various language models, which not only significantly improves the accuracy of invoking seen tools, but also enables the zero-shot capacity for unseen tools. The code and demo are available at https://github.com/StevenGrove/GPT4Tools.
PDF41December 15, 2024