ChatPaper.aiChatPaper

ToolHop: Ein abfragegesteuerter Benchmark zur Evaluierung großer Sprachmodelle bei der Verwendung von Multi-Hop-Tools

ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use

January 5, 2025
Autoren: Junjie Ye, Zhengyin Du, Xuesong Yao, Weijian Lin, Yufei Xu, Zehui Chen, Zaiyuan Wang, Sining Zhu, Zhiheng Xi, Siyu Yuan, Tao Gui, Qi Zhang, Xuanjing Huang, Jiechao Chen
cs.AI

Zusammenfassung

Eine effektive Bewertung der Mehrfach-Hop-Toolnutzung ist entscheidend für die Analyse der Verständnis-, Schlussfolgerungs- und Funktionsaufruf-Fähigkeiten großer Sprachmodelle (LLMs). Der Fortschritt wurde jedoch durch einen Mangel an zuverlässigen Bewertungsdatensätzen behindert. Um dies zu lösen, präsentieren wir ToolHop, einen Datensatz bestehend aus 995 Benutzeranfragen und 3.912 zugehörigen Tools, der speziell für eine gründliche Bewertung der Mehrfach-Hop-Toolnutzung konzipiert ist. ToolHop gewährleistet vielfältige Anfragen, sinnvolle Interdependenzen, lokal ausführbare Tools, detailliertes Feedback und überprüfbare Antworten durch einen neuartigen, an Anfragen orientierten Ansatz zur Datenerstellung, der die Toolerstellung, Dokumentenverfeinerung und Codegenerierung umfasst. Wir bewerten 14 LLMs aus fünf Modellfamilien (d.h. LLaMA3.1, Qwen2.5, Gemini1.5, Claude3.5 und GPT) und decken dabei bedeutende Herausforderungen bei der Bewältigung von Szenarien mit Mehrfach-Hop-Toolnutzung auf. Das führende Modell, GPT-4o, erreicht eine Genauigkeit von 49,04%, was auf erheblichen Verbesserungsbedarf hinweist. Weitere Analysen zeigen Variationen in den Toolnutzungsstrategien für verschiedene Familien auf und bieten handlungsorientierte Erkenntnisse zur Entwicklung effektiverer Ansätze. Code und Daten sind unter https://huggingface.co/bytedance-research/ToolHop verfügbar.
English
Effective evaluation of multi-hop tool use is critical for analyzing the understanding, reasoning, and function-calling capabilities of large language models (LLMs). However, progress has been hindered by a lack of reliable evaluation datasets. To address this, we present ToolHop, a dataset comprising 995 user queries and 3,912 associated tools, specifically designed for rigorous evaluation of multi-hop tool use. ToolHop ensures diverse queries, meaningful interdependencies, locally executable tools, detailed feedback, and verifiable answers through a novel query-driven data construction approach that includes tool creation, document refinement, and code generation. We evaluate 14 LLMs across five model families (i.e., LLaMA3.1, Qwen2.5, Gemini1.5, Claude3.5, and GPT), uncovering significant challenges in handling multi-hop tool-use scenarios. The leading model, GPT-4o, achieves an accuracy of 49.04%, underscoring substantial room for improvement. Further analysis reveals variations in tool-use strategies for various families, offering actionable insights to guide the development of more effective approaches. Code and data can be found in https://huggingface.co/bytedance-research/ToolHop.

Summary

AI-Generated Summary

PDF113January 7, 2025