Retrieval-Modelle sind nicht werkzeugkundig: Benchmarking der Werkzeugrückgewinnung für große Sprachmodelle
Retrieval Models Aren't Tool-Savvy: Benchmarking Tool Retrieval for Large Language Models
March 3, 2025
Autoren: Zhengliang Shi, Yuhan Wang, Lingyong Yan, Pengjie Ren, Shuaiqiang Wang, Dawei Yin, Zhaochun Ren
cs.AI
Zusammenfassung
Tool Learning zielt darauf ab, große Sprachmodelle (LLMs) durch diverse Werkzeuge zu erweitern, um sie als Agenten zur Lösung praktischer Aufgaben einzusetzen. Aufgrund der begrenzten Kontextlänge von LLMs, die Werkzeuge verwenden, ist die Übernahme von Informationsretrieval (IR)-Modellen zur Auswahl nützlicher Werkzeuge aus großen Werkzeugsammlungen ein entscheidender erster Schritt. Die Leistung von IR-Modellen bei Werkzeug-Retrieval-Aufgaben bleibt jedoch weitgehend unerforscht und unklar. Die meisten Benchmarks für die Werkzeugnutzung vereinfachen diesen Schritt, indem sie manuell eine kleine Menge relevanter Werkzeuge für jede Aufgabe vorannotieren, was weit von realen Szenarien entfernt ist. In diesem Artikel stellen wir ToolRet vor, einen heterogenen Benchmark für das Werkzeug-Retrieval, der 7.600 diverse Retrieval-Aufgaben und ein Korpus von 43.000 Werkzeugen umfasst, die aus bestehenden Datensätzen gesammelt wurden. Wir evaluieren sechs Arten von Modellen auf ToolRet. Überraschenderweise zeigen selbst Modelle, die in konventionellen IR-Benchmarks stark abschneiden, eine schlechte Leistung auf ToolRet. Diese niedrige Retrieval-Qualität verschlechtert die Erfolgsrate von LLMs bei der Werkzeugnutzung. Als weiteren Schritt stellen wir einen umfangreichen Trainingsdatensatz mit über 200.000 Instanzen bereit, der die Fähigkeit von IR-Modellen zum Werkzeug-Retrieval erheblich optimiert.
English
Tool learning aims to augment large language models (LLMs) with diverse
tools, enabling them to act as agents for solving practical tasks. Due to the
limited context length of tool-using LLMs, adopting information retrieval (IR)
models to select useful tools from large toolsets is a critical initial step.
However, the performance of IR models in tool retrieval tasks remains
underexplored and unclear. Most tool-use benchmarks simplify this step by
manually pre-annotating a small set of relevant tools for each task, which is
far from the real-world scenarios. In this paper, we propose ToolRet, a
heterogeneous tool retrieval benchmark comprising 7.6k diverse retrieval tasks,
and a corpus of 43k tools, collected from existing datasets. We benchmark six
types of models on ToolRet. Surprisingly, even the models with strong
performance in conventional IR benchmarks, exhibit poor performance on ToolRet.
This low retrieval quality degrades the task pass rate of tool-use LLMs. As a
further step, we contribute a large-scale training dataset with over 200k
instances, which substantially optimizes the tool retrieval ability of IR
models.Summary
AI-Generated Summary