GPT4Tools: Ensinando Modelos de Linguagem de Grande Porte a Utilizar Ferramentas por meio de Autoinstrução

Resumo

Este artigo tem como objetivo permitir de forma eficiente que Modelos de Linguagem de Grande Escala (LLMs) utilizem ferramentas multimodais. LLMs proprietários avançados, como ChatGPT e GPT-4, demonstraram grande potencial para o uso de ferramentas por meio de engenharia de prompts sofisticada. No entanto, esses modelos geralmente dependem de custos computacionais proibitivos e dados publicamente inacessíveis. Para enfrentar esses desafios, propomos o GPT4Tools, baseado em auto-instrução, para permitir que LLMs de código aberto, como LLaMA e OPT, utilizem ferramentas. Ele gera um conjunto de dados de seguimento de instruções ao solicitar a um professor avançado com vários contextos multimodais. Utilizando a otimização de Adaptação de Baixa Classificação (LoRA), nossa abordagem facilita que os LLMs de código aberto resolvam uma variedade de problemas visuais, incluindo compreensão visual e geração de imagens. Além disso, fornecemos um benchmark para avaliar a capacidade dos LLMs de usar ferramentas, realizado tanto de forma zero-shot quanto com ajuste fino. Experimentos extensivos demonstram a eficácia do nosso método em vários modelos de linguagem, que não apenas melhora significativamente a precisão na invocação de ferramentas conhecidas, mas também habilita a capacidade zero-shot para ferramentas desconhecidas. O código e a demonstração estão disponíveis em https://github.com/StevenGrove/GPT4Tools.

English

This paper aims to efficiently enable Large Language Models (LLMs) to use multimodal tools. Advanced proprietary LLMs, such as ChatGPT and GPT-4, have shown great potential for tool usage through sophisticated prompt engineering. Nevertheless, these models typically rely on prohibitive computational costs and publicly inaccessible data. To address these challenges, we propose the GPT4Tools based on self-instruct to enable open-source LLMs, such as LLaMA and OPT, to use tools. It generates an instruction-following dataset by prompting an advanced teacher with various multi-modal contexts. By using the Low-Rank Adaptation (LoRA) optimization, our approach facilitates the open-source LLMs to solve a range of visual problems, including visual comprehension and image generation. Moreover, we provide a benchmark to evaluate the ability of LLMs to use tools, which is performed in both zero-shot and fine-tuning ways. Extensive experiments demonstrate the effectiveness of our method on various language models, which not only significantly improves the accuracy of invoking seen tools, but also enables the zero-shot capacity for unseen tools. The code and demo are available at https://github.com/StevenGrove/GPT4Tools.

GPT4Tools: Ensinando Modelos de Linguagem de Grande Porte a Utilizar Ferramentas por meio de Autoinstrução

GPT4Tools: Teaching Large Language Model to Use Tools via Self-instruction

Resumo

Support