ToolTalk: Avaliação do Uso de Ferramentas em um Contexto Conversacional
ToolTalk: Evaluating Tool-Usage in a Conversational Setting
November 15, 2023
Autores: Nicholas Farn, Richard Shin
cs.AI
Resumo
Os grandes modelos de linguagem (LLMs, na sigla em inglês) têm demonstrado melhorias significativas em habilidades de raciocínio e tomada de decisão, além de serem capazes de manter conversas naturais com os usuários. Muitos trabalhos recentes buscam aprimorar assistentes baseados em LLMs com ferramentas externas, permitindo que eles acessem informações privadas ou atualizadas e realizem ações em nome dos usuários. Para medir melhor o desempenho desses assistentes, este artigo apresenta o ToolTalk, um benchmark composto por intenções complexas do usuário que exigem o uso de múltiplas etapas de ferramentas especificadas por meio de diálogo. O ToolTalk contém 28 ferramentas agrupadas em 7 plugins e inclui uma implementação simulada completa de cada ferramenta, permitindo uma avaliação totalmente automatizada de assistentes que dependem de feedback de execução. O ToolTalk também enfatiza ferramentas que afetam externamente o mundo, em vez de apenas ferramentas para consulta ou busca de informações. Avaliamos o GPT-3.5 e o GPT-4 no ToolTalk, resultando em taxas de sucesso de 26% e 50%, respectivamente. Nossa análise dos erros revela três categorias principais e sugere algumas direções futuras para melhorias. Disponibilizamos o ToolTalk em https://github.com/microsoft/ToolTalk.
English
Large language models (LLMs) have displayed massive improvements in reason-
ing and decision-making skills and can hold natural conversations with users.
Many recent works seek to augment LLM-based assistants with external tools so
they can access private or up-to-date information and carry out actions on
behalf of users. To better measure the performance of these assistants, this
paper introduces ToolTalk, a benchmark consisting of complex user intents re-
quiring multi-step tool usage specified through dialogue. ToolTalk contains 28
tools grouped into 7 plugins, and includes a complete simulated implementa-
tion of each tool, allowing for fully automated evaluation of assistants that
rely on execution feedback. ToolTalk also emphasizes tools that externally
affect the world rather than only tools for referencing or searching
information. We evaluate GPT-3.5 and GPT-4 on ToolTalk resulting in success
rates of 26% and 50% respectively. Our analysis of the errors reveals three
major categories and suggests some future directions for improvement. We
release ToolTalk at https://github.com/microsoft/ToolTalk.