GPT4Tools: Ensinando Modelos de Linguagem de Grande Porte a Utilizar Ferramentas por meio de Autoinstrução
GPT4Tools: Teaching Large Language Model to Use Tools via Self-instruction
May 30, 2023
Autores: Rui Yang, Lin Song, Yanwei Li, Sijie Zhao, Yixiao Ge, Xiu Li, Ying Shan
cs.AI
Resumo
Este artigo tem como objetivo permitir de forma eficiente que Modelos de Linguagem de Grande Escala (LLMs) utilizem ferramentas multimodais. LLMs proprietários avançados, como ChatGPT e GPT-4, demonstraram grande potencial para o uso de ferramentas por meio de engenharia de prompts sofisticada. No entanto, esses modelos geralmente dependem de custos computacionais proibitivos e dados publicamente inacessíveis. Para enfrentar esses desafios, propomos o GPT4Tools, baseado em auto-instrução, para permitir que LLMs de código aberto, como LLaMA e OPT, utilizem ferramentas. Ele gera um conjunto de dados de seguimento de instruções ao solicitar a um professor avançado com vários contextos multimodais. Utilizando a otimização de Adaptação de Baixa Classificação (LoRA), nossa abordagem facilita que os LLMs de código aberto resolvam uma variedade de problemas visuais, incluindo compreensão visual e geração de imagens. Além disso, fornecemos um benchmark para avaliar a capacidade dos LLMs de usar ferramentas, realizado tanto de forma zero-shot quanto com ajuste fino. Experimentos extensivos demonstram a eficácia do nosso método em vários modelos de linguagem, que não apenas melhora significativamente a precisão na invocação de ferramentas conhecidas, mas também habilita a capacidade zero-shot para ferramentas desconhecidas. O código e a demonstração estão disponíveis em https://github.com/StevenGrove/GPT4Tools.
English
This paper aims to efficiently enable Large Language Models (LLMs) to use
multimodal tools. Advanced proprietary LLMs, such as ChatGPT and GPT-4, have
shown great potential for tool usage through sophisticated prompt engineering.
Nevertheless, these models typically rely on prohibitive computational costs
and publicly inaccessible data. To address these challenges, we propose the
GPT4Tools based on self-instruct to enable open-source LLMs, such as LLaMA and
OPT, to use tools. It generates an instruction-following dataset by prompting
an advanced teacher with various multi-modal contexts. By using the Low-Rank
Adaptation (LoRA) optimization, our approach facilitates the open-source LLMs
to solve a range of visual problems, including visual comprehension and image
generation. Moreover, we provide a benchmark to evaluate the ability of LLMs to
use tools, which is performed in both zero-shot and fine-tuning ways. Extensive
experiments demonstrate the effectiveness of our method on various language
models, which not only significantly improves the accuracy of invoking seen
tools, but also enables the zero-shot capacity for unseen tools. The code and
demo are available at https://github.com/StevenGrove/GPT4Tools.