ChatPaper.aiChatPaper

ToolTalk: Avaliação do Uso de Ferramentas em um Contexto Conversacional

ToolTalk: Evaluating Tool-Usage in a Conversational Setting

November 15, 2023
Autores: Nicholas Farn, Richard Shin
cs.AI

Resumo

Os grandes modelos de linguagem (LLMs, na sigla em inglês) têm demonstrado melhorias significativas em habilidades de raciocínio e tomada de decisão, além de serem capazes de manter conversas naturais com os usuários. Muitos trabalhos recentes buscam aprimorar assistentes baseados em LLMs com ferramentas externas, permitindo que eles acessem informações privadas ou atualizadas e realizem ações em nome dos usuários. Para medir melhor o desempenho desses assistentes, este artigo apresenta o ToolTalk, um benchmark composto por intenções complexas do usuário que exigem o uso de múltiplas etapas de ferramentas especificadas por meio de diálogo. O ToolTalk contém 28 ferramentas agrupadas em 7 plugins e inclui uma implementação simulada completa de cada ferramenta, permitindo uma avaliação totalmente automatizada de assistentes que dependem de feedback de execução. O ToolTalk também enfatiza ferramentas que afetam externamente o mundo, em vez de apenas ferramentas para consulta ou busca de informações. Avaliamos o GPT-3.5 e o GPT-4 no ToolTalk, resultando em taxas de sucesso de 26% e 50%, respectivamente. Nossa análise dos erros revela três categorias principais e sugere algumas direções futuras para melhorias. Disponibilizamos o ToolTalk em https://github.com/microsoft/ToolTalk.
English
Large language models (LLMs) have displayed massive improvements in reason- ing and decision-making skills and can hold natural conversations with users. Many recent works seek to augment LLM-based assistants with external tools so they can access private or up-to-date information and carry out actions on behalf of users. To better measure the performance of these assistants, this paper introduces ToolTalk, a benchmark consisting of complex user intents re- quiring multi-step tool usage specified through dialogue. ToolTalk contains 28 tools grouped into 7 plugins, and includes a complete simulated implementa- tion of each tool, allowing for fully automated evaluation of assistants that rely on execution feedback. ToolTalk also emphasizes tools that externally affect the world rather than only tools for referencing or searching information. We evaluate GPT-3.5 and GPT-4 on ToolTalk resulting in success rates of 26% and 50% respectively. Our analysis of the errors reveals three major categories and suggests some future directions for improvement. We release ToolTalk at https://github.com/microsoft/ToolTalk.
PDF101December 15, 2024