ToolTalk: Valutazione dell'Utilizzo di Strumenti in un Contesto Conversazionale

Abstract

I grandi modelli linguistici (LLM) hanno dimostrato miglioramenti significativi nelle capacità di ragionamento e decisione e possono condurre conversazioni naturali con gli utenti. Molti lavori recenti cercano di potenziare gli assistenti basati su LLM con strumenti esterni, in modo che possano accedere a informazioni private o aggiornate e compiere azioni per conto degli utenti. Per misurare meglio le prestazioni di questi assistenti, questo articolo introduce ToolTalk, un benchmark costituito da intenti complessi dell'utente che richiedono l'uso di strumenti multi-step specificati attraverso il dialogo. ToolTalk contiene 28 strumenti raggruppati in 7 plugin e include un'implementazione simulata completa di ciascuno strumento, consentendo una valutazione completamente automatizzata degli assistenti che si basano sul feedback di esecuzione. ToolTalk enfatizza inoltre strumenti che influenzano esternamente il mondo, piuttosto che solo strumenti per la consultazione o la ricerca di informazioni. Valutiamo GPT-3.5 e GPT-4 su ToolTalk, ottenendo tassi di successo rispettivamente del 26% e del 50%. La nostra analisi degli errori rivela tre categorie principali e suggerisce alcune direzioni future per il miglioramento. Rilasciamo ToolTalk all'indirizzo https://github.com/microsoft/ToolTalk.

English

Large language models (LLMs) have displayed massive improvements in reason- ing and decision-making skills and can hold natural conversations with users. Many recent works seek to augment LLM-based assistants with external tools so they can access private or up-to-date information and carry out actions on behalf of users. To better measure the performance of these assistants, this paper introduces ToolTalk, a benchmark consisting of complex user intents re- quiring multi-step tool usage specified through dialogue. ToolTalk contains 28 tools grouped into 7 plugins, and includes a complete simulated implementa- tion of each tool, allowing for fully automated evaluation of assistants that rely on execution feedback. ToolTalk also emphasizes tools that externally affect the world rather than only tools for referencing or searching information. We evaluate GPT-3.5 and GPT-4 on ToolTalk resulting in success rates of 26% and 50% respectively. Our analysis of the errors reveals three major categories and suggests some future directions for improvement. We release ToolTalk at https://github.com/microsoft/ToolTalk.

ToolTalk: Valutazione dell'Utilizzo di Strumenti in un Contesto Conversazionale

ToolTalk: Evaluating Tool-Usage in a Conversational Setting

Abstract

Support