ToolTalk : Évaluation de l'utilisation d'outils dans un contexte conversationnel
ToolTalk: Evaluating Tool-Usage in a Conversational Setting
November 15, 2023
Auteurs: Nicholas Farn, Richard Shin
cs.AI
Résumé
Les grands modèles de langage (LLM) ont montré des améliorations considérables dans leurs capacités de raisonnement et de prise de décision, et peuvent engager des conversations naturelles avec les utilisateurs. De nombreux travaux récents cherchent à enrichir les assistants basés sur LLM avec des outils externes afin qu'ils puissent accéder à des informations privées ou actualisées et effectuer des actions au nom des utilisateurs. Pour mieux mesurer les performances de ces assistants, cet article présente ToolTalk, un benchmark composé d'intentions utilisateur complexes nécessitant une utilisation multi-étapes d'outils spécifiée à travers des dialogues. ToolTalk contient 28 outils regroupés en 7 plugins, et inclut une implémentation simulée complète de chaque outil, permettant une évaluation entièrement automatisée des assistants qui s'appuient sur des retours d'exécution. ToolTalk met également l'accent sur les outils qui affectent le monde extérieur plutôt que sur ceux uniquement destinés à référencer ou rechercher des informations. Nous évaluons GPT-3.5 et GPT-4 sur ToolTalk, obtenant des taux de réussite de 26 % et 50 % respectivement. Notre analyse des erreurs révèle trois catégories principales et suggère quelques pistes d'amélioration futures. Nous publions ToolTalk à l'adresse https://github.com/microsoft/ToolTalk.
English
Large language models (LLMs) have displayed massive improvements in reason-
ing and decision-making skills and can hold natural conversations with users.
Many recent works seek to augment LLM-based assistants with external tools so
they can access private or up-to-date information and carry out actions on
behalf of users. To better measure the performance of these assistants, this
paper introduces ToolTalk, a benchmark consisting of complex user intents re-
quiring multi-step tool usage specified through dialogue. ToolTalk contains 28
tools grouped into 7 plugins, and includes a complete simulated implementa-
tion of each tool, allowing for fully automated evaluation of assistants that
rely on execution feedback. ToolTalk also emphasizes tools that externally
affect the world rather than only tools for referencing or searching
information. We evaluate GPT-3.5 and GPT-4 on ToolTalk resulting in success
rates of 26% and 50% respectively. Our analysis of the errors reveals three
major categories and suggests some future directions for improvement. We
release ToolTalk at https://github.com/microsoft/ToolTalk.