ChatPaper.aiChatPaper

ToolTalk : Évaluation de l'utilisation d'outils dans un contexte conversationnel

ToolTalk: Evaluating Tool-Usage in a Conversational Setting

November 15, 2023
Auteurs: Nicholas Farn, Richard Shin
cs.AI

Résumé

Les grands modèles de langage (LLM) ont montré des améliorations considérables dans leurs capacités de raisonnement et de prise de décision, et peuvent engager des conversations naturelles avec les utilisateurs. De nombreux travaux récents cherchent à enrichir les assistants basés sur LLM avec des outils externes afin qu'ils puissent accéder à des informations privées ou actualisées et effectuer des actions au nom des utilisateurs. Pour mieux mesurer les performances de ces assistants, cet article présente ToolTalk, un benchmark composé d'intentions utilisateur complexes nécessitant une utilisation multi-étapes d'outils spécifiée à travers des dialogues. ToolTalk contient 28 outils regroupés en 7 plugins, et inclut une implémentation simulée complète de chaque outil, permettant une évaluation entièrement automatisée des assistants qui s'appuient sur des retours d'exécution. ToolTalk met également l'accent sur les outils qui affectent le monde extérieur plutôt que sur ceux uniquement destinés à référencer ou rechercher des informations. Nous évaluons GPT-3.5 et GPT-4 sur ToolTalk, obtenant des taux de réussite de 26 % et 50 % respectivement. Notre analyse des erreurs révèle trois catégories principales et suggère quelques pistes d'amélioration futures. Nous publions ToolTalk à l'adresse https://github.com/microsoft/ToolTalk.
English
Large language models (LLMs) have displayed massive improvements in reason- ing and decision-making skills and can hold natural conversations with users. Many recent works seek to augment LLM-based assistants with external tools so they can access private or up-to-date information and carry out actions on behalf of users. To better measure the performance of these assistants, this paper introduces ToolTalk, a benchmark consisting of complex user intents re- quiring multi-step tool usage specified through dialogue. ToolTalk contains 28 tools grouped into 7 plugins, and includes a complete simulated implementa- tion of each tool, allowing for fully automated evaluation of assistants that rely on execution feedback. ToolTalk also emphasizes tools that externally affect the world rather than only tools for referencing or searching information. We evaluate GPT-3.5 and GPT-4 on ToolTalk resulting in success rates of 26% and 50% respectively. Our analysis of the errors reveals three major categories and suggests some future directions for improvement. We release ToolTalk at https://github.com/microsoft/ToolTalk.
PDF101December 15, 2024