ToolHop: Een op vragen gebaseerde benchmark voor het evalueren van grote taalmodellen bij het gebruik van meerdere stappen.
ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use
January 5, 2025
Auteurs: Junjie Ye, Zhengyin Du, Xuesong Yao, Weijian Lin, Yufei Xu, Zehui Chen, Zaiyuan Wang, Sining Zhu, Zhiheng Xi, Siyu Yuan, Tao Gui, Qi Zhang, Xuanjing Huang, Jiechao Chen
cs.AI
Samenvatting
Een effectieve evaluatie van het gebruik van multi-hop tools is cruciaal voor het analyseren van het begrip, redeneren en de functie-oproepmogelijkheden van grote taalmodellen (LLM's). De vooruitgang wordt echter belemmerd door een gebrek aan betrouwbare evaluatiedatasets. Om dit aan te pakken, presenteren we ToolHop, een dataset bestaande uit 995 gebruikersquery's en 3.912 bijbehorende tools, specifiek ontworpen voor een rigoureuze evaluatie van het gebruik van multi-hop tools. ToolHop zorgt voor diverse query's, betekenisvolle onderlinge afhankelijkheden, lokaal uitvoerbare tools, gedetailleerde feedback en controleerbare antwoorden via een nieuw query-gedreven gegevensconstructiebenadering die toolcreatie, documentverfijning en codegeneratie omvat. We evalueren 14 LLM's over vijf modelfamilies (d.w.z. LLaMA3.1, Qwen2.5, Gemini1.5, Claude3.5 en GPT), waarbij significante uitdagingen aan het licht komen bij het omgaan met scenario's van multi-hop toolgebruik. Het toonaangevende model, GPT-4o, behaalt een nauwkeurigheid van 49,04%, waaruit blijkt dat er aanzienlijke ruimte is voor verbetering. Verder onderzoek onthult variaties in toolgebruiksstrategieën voor verschillende families, die bruikbare inzichten bieden om de ontwikkeling van effectievere benaderingen te sturen. Code en gegevens zijn te vinden op https://huggingface.co/bytedance-research/ToolHop.
English
Effective evaluation of multi-hop tool use is critical for analyzing the
understanding, reasoning, and function-calling capabilities of large language
models (LLMs). However, progress has been hindered by a lack of reliable
evaluation datasets. To address this, we present ToolHop, a dataset comprising
995 user queries and 3,912 associated tools, specifically designed for rigorous
evaluation of multi-hop tool use. ToolHop ensures diverse queries, meaningful
interdependencies, locally executable tools, detailed feedback, and verifiable
answers through a novel query-driven data construction approach that includes
tool creation, document refinement, and code generation. We evaluate 14 LLMs
across five model families (i.e., LLaMA3.1, Qwen2.5, Gemini1.5, Claude3.5, and
GPT), uncovering significant challenges in handling multi-hop tool-use
scenarios. The leading model, GPT-4o, achieves an accuracy of 49.04%,
underscoring substantial room for improvement. Further analysis reveals
variations in tool-use strategies for various families, offering actionable
insights to guide the development of more effective approaches. Code and data
can be found in https://huggingface.co/bytedance-research/ToolHop.Summary
AI-Generated Summary