ToolTalk: Het evalueren van toolgebruik in een conversatiecontext
ToolTalk: Evaluating Tool-Usage in a Conversational Setting
November 15, 2023
Auteurs: Nicholas Farn, Richard Shin
cs.AI
Samenvatting
Grote taalmodellen (LLMs) hebben aanzienlijke verbeteringen laten zien in redeneer- en besluitvaardigheden en kunnen natuurlijke gesprekken voeren met gebruikers. Veel recente onderzoeken richten zich op het uitbreiden van LLM-gebaseerde assistenten met externe tools, zodat ze toegang kunnen krijgen tot privé- of actuele informatie en acties kunnen uitvoeren namens gebruikers. Om de prestaties van deze assistenten beter te kunnen meten, introduceert dit artikel ToolTalk, een benchmark die bestaat uit complexe gebruikersintenties die multi-step toolgebruik vereisen, gespecificeerd via dialoog. ToolTalk bevat 28 tools gegroepeerd in 7 plugins, en omvat een volledige gesimuleerde implementatie van elke tool, wat volledig geautomatiseerde evaluatie mogelijk maakt van assistenten die vertrouwen op uitvoeringsfeedback. ToolTalk benadrukt ook tools die extern invloed uitoefenen op de wereld, in plaats van alleen tools voor het raadplegen of zoeken van informatie. We evalueren GPT-3.5 en GPT-4 op ToolTalk, wat resulteert in succespercentages van respectievelijk 26% en 50%. Onze analyse van de fouten onthult drie belangrijke categorieën en suggereert enkele toekomstige richtingen voor verbetering. We maken ToolTalk beschikbaar op https://github.com/microsoft/ToolTalk.
English
Large language models (LLMs) have displayed massive improvements in reason-
ing and decision-making skills and can hold natural conversations with users.
Many recent works seek to augment LLM-based assistants with external tools so
they can access private or up-to-date information and carry out actions on
behalf of users. To better measure the performance of these assistants, this
paper introduces ToolTalk, a benchmark consisting of complex user intents re-
quiring multi-step tool usage specified through dialogue. ToolTalk contains 28
tools grouped into 7 plugins, and includes a complete simulated implementa-
tion of each tool, allowing for fully automated evaluation of assistants that
rely on execution feedback. ToolTalk also emphasizes tools that externally
affect the world rather than only tools for referencing or searching
information. We evaluate GPT-3.5 and GPT-4 on ToolTalk resulting in success
rates of 26% and 50% respectively. Our analysis of the errors reveals three
major categories and suggests some future directions for improvement. We
release ToolTalk at https://github.com/microsoft/ToolTalk.