ChatPaper.aiChatPaper

ToolTalk: Bewertung der Werkzeugnutzung in einem konversationellen Kontext

ToolTalk: Evaluating Tool-Usage in a Conversational Setting

November 15, 2023
Autoren: Nicholas Farn, Richard Shin
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) haben erhebliche Fortschritte in Bezug auf ihre Fähigkeiten zur logischen Schlussfolgerung und Entscheidungsfindung gezeigt und können natürliche Gespräche mit Nutzern führen. Viele aktuelle Arbeiten zielen darauf ab, LLM-basierte Assistenten mit externen Tools zu erweitern, damit diese auf private oder aktuelle Informationen zugreifen und Aktionen im Namen der Nutzer ausführen können. Um die Leistung dieser Assistenten besser zu bewerten, stellt dieses Paper ToolTalk vor, einen Benchmark, der komplexe Nutzerabsichten umfasst, die mehrstufige Tool-Nutzung erfordern, die durch Dialoge spezifiziert wird. ToolTalk enthält 28 Tools, die in 7 Plugins gruppiert sind, und beinhaltet eine vollständige simulierte Implementierung jedes Tools, was eine vollautomatisierte Bewertung von Assistenten ermöglicht, die auf Ausführungsfeedback angewiesen sind. ToolTalk legt zudem den Schwerpunkt auf Tools, die extern auf die Welt einwirken, anstatt nur auf Tools, die der Informationsreferenzierung oder -suche dienen. Wir evaluieren GPT-3.5 und GPT-4 auf ToolTalk und erzielen Erfolgsquoten von 26 % bzw. 50 %. Unsere Fehleranalyse offenbart drei Hauptkategorien und gibt Hinweise auf zukünftige Verbesserungsmöglichkeiten. Wir veröffentlichen ToolTalk unter https://github.com/microsoft/ToolTalk.
English
Large language models (LLMs) have displayed massive improvements in reason- ing and decision-making skills and can hold natural conversations with users. Many recent works seek to augment LLM-based assistants with external tools so they can access private or up-to-date information and carry out actions on behalf of users. To better measure the performance of these assistants, this paper introduces ToolTalk, a benchmark consisting of complex user intents re- quiring multi-step tool usage specified through dialogue. ToolTalk contains 28 tools grouped into 7 plugins, and includes a complete simulated implementa- tion of each tool, allowing for fully automated evaluation of assistants that rely on execution feedback. ToolTalk also emphasizes tools that externally affect the world rather than only tools for referencing or searching information. We evaluate GPT-3.5 and GPT-4 on ToolTalk resulting in success rates of 26% and 50% respectively. Our analysis of the errors reveals three major categories and suggests some future directions for improvement. We release ToolTalk at https://github.com/microsoft/ToolTalk.
PDF101December 15, 2024