Les modèles de recherche ne maîtrisent pas les outils : Évaluation de la récupération d'outils pour les grands modèles de langage
Retrieval Models Aren't Tool-Savvy: Benchmarking Tool Retrieval for Large Language Models
March 3, 2025
Auteurs: Zhengliang Shi, Yuhan Wang, Lingyong Yan, Pengjie Ren, Shuaiqiang Wang, Dawei Yin, Zhaochun Ren
cs.AI
Résumé
L'apprentissage d'outils vise à enrichir les grands modèles de langage (LLM) avec une diversité d'outils, leur permettant d'agir comme des agents pour résoudre des tâches pratiques. En raison de la longueur de contexte limitée des LLM utilisant des outils, l'adoption de modèles de recherche d'information (IR) pour sélectionner des outils utiles parmi de grands ensembles d'outils constitue une étape initiale cruciale. Cependant, la performance des modèles IR dans les tâches de récupération d'outils reste peu explorée et incertaine. La plupart des benchmarks d'utilisation d'outils simplifient cette étape en annotant manuellement un petit ensemble d'outils pertinents pour chaque tâche, ce qui est loin des scénarios réels. Dans cet article, nous proposons ToolRet, un benchmark hétérogène de récupération d'outils comprenant 7,6k tâches de récupération diverses, et un corpus de 43k outils, collectés à partir de jeux de données existants. Nous évaluons six types de modèles sur ToolRet. Étonnamment, même les modèles ayant de bonnes performances dans les benchmarks IR conventionnels montrent des performances médiocres sur ToolRet. Cette faible qualité de récupération dégrade le taux de réussite des tâches des LLM utilisant des outils. En complément, nous contribuons un ensemble de données d'entraînement à grande échelle avec plus de 200k instances, qui optimise considérablement la capacité de récupération d'outils des modèles IR.
English
Tool learning aims to augment large language models (LLMs) with diverse
tools, enabling them to act as agents for solving practical tasks. Due to the
limited context length of tool-using LLMs, adopting information retrieval (IR)
models to select useful tools from large toolsets is a critical initial step.
However, the performance of IR models in tool retrieval tasks remains
underexplored and unclear. Most tool-use benchmarks simplify this step by
manually pre-annotating a small set of relevant tools for each task, which is
far from the real-world scenarios. In this paper, we propose ToolRet, a
heterogeneous tool retrieval benchmark comprising 7.6k diverse retrieval tasks,
and a corpus of 43k tools, collected from existing datasets. We benchmark six
types of models on ToolRet. Surprisingly, even the models with strong
performance in conventional IR benchmarks, exhibit poor performance on ToolRet.
This low retrieval quality degrades the task pass rate of tool-use LLMs. As a
further step, we contribute a large-scale training dataset with over 200k
instances, which substantially optimizes the tool retrieval ability of IR
models.Summary
AI-Generated Summary