ToolHop: Ein abfragegesteuerter Benchmark zur Evaluierung großer Sprachmodelle bei der Verwendung von Multi-Hop-Tools
ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use
January 5, 2025
Autoren: Junjie Ye, Zhengyin Du, Xuesong Yao, Weijian Lin, Yufei Xu, Zehui Chen, Zaiyuan Wang, Sining Zhu, Zhiheng Xi, Siyu Yuan, Tao Gui, Qi Zhang, Xuanjing Huang, Jiechao Chen
cs.AI
Zusammenfassung
Eine effektive Bewertung der Mehrfach-Hop-Toolnutzung ist entscheidend für die Analyse der Verständnis-, Schlussfolgerungs- und Funktionsaufruf-Fähigkeiten großer Sprachmodelle (LLMs). Der Fortschritt wurde jedoch durch einen Mangel an zuverlässigen Bewertungsdatensätzen behindert. Um dies zu lösen, präsentieren wir ToolHop, einen Datensatz bestehend aus 995 Benutzeranfragen und 3.912 zugehörigen Tools, der speziell für eine gründliche Bewertung der Mehrfach-Hop-Toolnutzung konzipiert ist. ToolHop gewährleistet vielfältige Anfragen, sinnvolle Interdependenzen, lokal ausführbare Tools, detailliertes Feedback und überprüfbare Antworten durch einen neuartigen, an Anfragen orientierten Ansatz zur Datenerstellung, der die Toolerstellung, Dokumentenverfeinerung und Codegenerierung umfasst. Wir bewerten 14 LLMs aus fünf Modellfamilien (d.h. LLaMA3.1, Qwen2.5, Gemini1.5, Claude3.5 und GPT) und decken dabei bedeutende Herausforderungen bei der Bewältigung von Szenarien mit Mehrfach-Hop-Toolnutzung auf. Das führende Modell, GPT-4o, erreicht eine Genauigkeit von 49,04%, was auf erheblichen Verbesserungsbedarf hinweist. Weitere Analysen zeigen Variationen in den Toolnutzungsstrategien für verschiedene Familien auf und bieten handlungsorientierte Erkenntnisse zur Entwicklung effektiverer Ansätze. Code und Daten sind unter https://huggingface.co/bytedance-research/ToolHop verfügbar.
English
Effective evaluation of multi-hop tool use is critical for analyzing the
understanding, reasoning, and function-calling capabilities of large language
models (LLMs). However, progress has been hindered by a lack of reliable
evaluation datasets. To address this, we present ToolHop, a dataset comprising
995 user queries and 3,912 associated tools, specifically designed for rigorous
evaluation of multi-hop tool use. ToolHop ensures diverse queries, meaningful
interdependencies, locally executable tools, detailed feedback, and verifiable
answers through a novel query-driven data construction approach that includes
tool creation, document refinement, and code generation. We evaluate 14 LLMs
across five model families (i.e., LLaMA3.1, Qwen2.5, Gemini1.5, Claude3.5, and
GPT), uncovering significant challenges in handling multi-hop tool-use
scenarios. The leading model, GPT-4o, achieves an accuracy of 49.04%,
underscoring substantial room for improvement. Further analysis reveals
variations in tool-use strategies for various families, offering actionable
insights to guide the development of more effective approaches. Code and data
can be found in https://huggingface.co/bytedance-research/ToolHop.Summary
AI-Generated Summary