ChatPaper.aiChatPaper

Retrievalmodellen zijn niet toolvaardig: Benchmarking van toolretrieval voor grote taalmodellen

Retrieval Models Aren't Tool-Savvy: Benchmarking Tool Retrieval for Large Language Models

March 3, 2025
Auteurs: Zhengliang Shi, Yuhan Wang, Lingyong Yan, Pengjie Ren, Shuaiqiang Wang, Dawei Yin, Zhaochun Ren
cs.AI

Samenvatting

Tool learning heeft als doel om grote taalmodellen (LLMs) uit te breiden met diverse tools, waardoor ze kunnen functioneren als agents voor het oplossen van praktische taken. Vanwege de beperkte contextlengte van LLMs die tools gebruiken, is het toepassen van informatie-retrieval (IR) modellen om nuttige tools te selecteren uit grote toolverzamelingen een cruciale eerste stap. Echter, de prestaties van IR-modellen in tool-retrieval taken blijven onderbelicht en onduidelijk. De meeste benchmarks voor toolgebruik vereenvoudigen deze stap door handmatig een kleine set relevante tools voor elke taak vooraf te annoteren, wat ver afstaat van realistische scenario's. In dit artikel stellen we ToolRet voor, een heterogene tool-retrieval benchmark bestaande uit 7.6k diverse retrieval taken, en een corpus van 43k tools, verzameld uit bestaande datasets. We benchmarken zes typen modellen op ToolRet. Verrassend genoeg vertonen zelfs modellen met sterke prestaties in conventionele IR benchmarks slechte prestaties op ToolRet. Deze lage retrievalkwaliteit vermindert de taak-succesratio van toolgebruikende LLMs. Als vervolgstap dragen we een grootschalige trainingsdataset bij met meer dan 200k instanties, die de tool-retrievalcapaciteit van IR-modellen aanzienlijk optimaliseert.
English
Tool learning aims to augment large language models (LLMs) with diverse tools, enabling them to act as agents for solving practical tasks. Due to the limited context length of tool-using LLMs, adopting information retrieval (IR) models to select useful tools from large toolsets is a critical initial step. However, the performance of IR models in tool retrieval tasks remains underexplored and unclear. Most tool-use benchmarks simplify this step by manually pre-annotating a small set of relevant tools for each task, which is far from the real-world scenarios. In this paper, we propose ToolRet, a heterogeneous tool retrieval benchmark comprising 7.6k diverse retrieval tasks, and a corpus of 43k tools, collected from existing datasets. We benchmark six types of models on ToolRet. Surprisingly, even the models with strong performance in conventional IR benchmarks, exhibit poor performance on ToolRet. This low retrieval quality degrades the task pass rate of tool-use LLMs. As a further step, we contribute a large-scale training dataset with over 200k instances, which substantially optimizes the tool retrieval ability of IR models.

Summary

AI-Generated Summary

PDF42March 6, 2025