I modelli di retrieval non sono abili con gli strumenti: Benchmarking del retrieval di strumenti per i modelli linguistici di grandi dimensioni
Retrieval Models Aren't Tool-Savvy: Benchmarking Tool Retrieval for Large Language Models
March 3, 2025
Autori: Zhengliang Shi, Yuhan Wang, Lingyong Yan, Pengjie Ren, Shuaiqiang Wang, Dawei Yin, Zhaochun Ren
cs.AI
Abstract
L'apprendimento di strumenti mira a potenziare i grandi modelli linguistici (LLM) con una varietà di strumenti, consentendo loro di agire come agenti per risolvere compiti pratici. A causa della lunghezza limitata del contesto degli LLM che utilizzano strumenti, l'adozione di modelli di recupero delle informazioni (IR) per selezionare strumenti utili da grandi insiemi di strumenti è un passo iniziale cruciale. Tuttavia, le prestazioni dei modelli IR nei compiti di recupero degli strumenti rimangono poco esplorate e poco chiare. La maggior parte dei benchmark sull'uso degli strumenti semplifica questo passo pre-annotando manualmente un piccolo insieme di strumenti rilevanti per ciascun compito, il che è lontano dagli scenari del mondo reale. In questo articolo, proponiamo ToolRet, un benchmark eterogeneo per il recupero degli strumenti che comprende 7.6k compiti di recupero diversi e un corpus di 43k strumenti, raccolti da dataset esistenti. Valutiamo sei tipi di modelli su ToolRet. Sorprendentemente, anche i modelli con prestazioni solide nei benchmark IR convenzionali mostrano scarse prestazioni su ToolRet. Questa bassa qualità di recupero riduce il tasso di successo dei compiti degli LLM che utilizzano strumenti. Come ulteriore passo, contribuiamo con un dataset di addestramento su larga scala con oltre 200k istanze, che ottimizza sostanzialmente la capacità di recupero degli strumenti dei modelli IR.
English
Tool learning aims to augment large language models (LLMs) with diverse
tools, enabling them to act as agents for solving practical tasks. Due to the
limited context length of tool-using LLMs, adopting information retrieval (IR)
models to select useful tools from large toolsets is a critical initial step.
However, the performance of IR models in tool retrieval tasks remains
underexplored and unclear. Most tool-use benchmarks simplify this step by
manually pre-annotating a small set of relevant tools for each task, which is
far from the real-world scenarios. In this paper, we propose ToolRet, a
heterogeneous tool retrieval benchmark comprising 7.6k diverse retrieval tasks,
and a corpus of 43k tools, collected from existing datasets. We benchmark six
types of models on ToolRet. Surprisingly, even the models with strong
performance in conventional IR benchmarks, exhibit poor performance on ToolRet.
This low retrieval quality degrades the task pass rate of tool-use LLMs. As a
further step, we contribute a large-scale training dataset with over 200k
instances, which substantially optimizes the tool retrieval ability of IR
models.Summary
AI-Generated Summary