ToolHop: Een op vragen gebaseerde benchmark voor het evalueren van grote taalmodellen bij het gebruik van meerdere stappen.

Samenvatting

Een effectieve evaluatie van het gebruik van multi-hop tools is cruciaal voor het analyseren van het begrip, redeneren en de functie-oproepmogelijkheden van grote taalmodellen (LLM's). De vooruitgang wordt echter belemmerd door een gebrek aan betrouwbare evaluatiedatasets. Om dit aan te pakken, presenteren we ToolHop, een dataset bestaande uit 995 gebruikersquery's en 3.912 bijbehorende tools, specifiek ontworpen voor een rigoureuze evaluatie van het gebruik van multi-hop tools. ToolHop zorgt voor diverse query's, betekenisvolle onderlinge afhankelijkheden, lokaal uitvoerbare tools, gedetailleerde feedback en controleerbare antwoorden via een nieuw query-gedreven gegevensconstructiebenadering die toolcreatie, documentverfijning en codegeneratie omvat. We evalueren 14 LLM's over vijf modelfamilies (d.w.z. LLaMA3.1, Qwen2.5, Gemini1.5, Claude3.5 en GPT), waarbij significante uitdagingen aan het licht komen bij het omgaan met scenario's van multi-hop toolgebruik. Het toonaangevende model, GPT-4o, behaalt een nauwkeurigheid van 49,04%, waaruit blijkt dat er aanzienlijke ruimte is voor verbetering. Verder onderzoek onthult variaties in toolgebruiksstrategieën voor verschillende families, die bruikbare inzichten bieden om de ontwikkeling van effectievere benaderingen te sturen. Code en gegevens zijn te vinden op https://huggingface.co/bytedance-research/ToolHop.

English

Effective evaluation of multi-hop tool use is critical for analyzing the understanding, reasoning, and function-calling capabilities of large language models (LLMs). However, progress has been hindered by a lack of reliable evaluation datasets. To address this, we present ToolHop, a dataset comprising 995 user queries and 3,912 associated tools, specifically designed for rigorous evaluation of multi-hop tool use. ToolHop ensures diverse queries, meaningful interdependencies, locally executable tools, detailed feedback, and verifiable answers through a novel query-driven data construction approach that includes tool creation, document refinement, and code generation. We evaluate 14 LLMs across five model families (i.e., LLaMA3.1, Qwen2.5, Gemini1.5, Claude3.5, and GPT), uncovering significant challenges in handling multi-hop tool-use scenarios. The leading model, GPT-4o, achieves an accuracy of 49.04%, underscoring substantial room for improvement. Further analysis reveals variations in tool-use strategies for various families, offering actionable insights to guide the development of more effective approaches. Code and data can be found in https://huggingface.co/bytedance-research/ToolHop.

ToolHop: Een op vragen gebaseerde benchmark voor het evalueren van grote taalmodellen bij het gebruik van meerdere stappen.

ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use

Samenvatting

Summary

Support

Support