Los modelos de recuperación no son expertos en herramientas: Evaluación de la recuperación de herramientas para modelos de lenguaje de gran escala
Retrieval Models Aren't Tool-Savvy: Benchmarking Tool Retrieval for Large Language Models
March 3, 2025
Autores: Zhengliang Shi, Yuhan Wang, Lingyong Yan, Pengjie Ren, Shuaiqiang Wang, Dawei Yin, Zhaochun Ren
cs.AI
Resumen
El aprendizaje de herramientas busca aumentar las capacidades de los modelos de lenguaje de gran escala (LLMs) con diversas herramientas, permitiéndoles actuar como agentes para resolver tareas prácticas. Debido a la longitud limitada del contexto de los LLMs que utilizan herramientas, adoptar modelos de recuperación de información (IR) para seleccionar herramientas útiles de grandes conjuntos de herramientas es un paso inicial crítico. Sin embargo, el rendimiento de los modelos IR en tareas de recuperación de herramientas sigue siendo poco explorado y poco claro. La mayoría de los puntos de referencia para el uso de herramientas simplifican este paso al preanotar manualmente un pequeño conjunto de herramientas relevantes para cada tarea, lo que dista mucho de los escenarios del mundo real. En este artículo, proponemos ToolRet, un punto de referencia heterogéneo para la recuperación de herramientas que comprende 7.6k tareas de recuperación diversas y un corpus de 43k herramientas, recopilados de conjuntos de datos existentes. Evaluamos seis tipos de modelos en ToolRet. Sorprendentemente, incluso los modelos con un fuerte rendimiento en puntos de referencia convencionales de IR, muestran un rendimiento deficiente en ToolRet. Esta baja calidad de recuperación degrada la tasa de éxito de las tareas de los LLMs que utilizan herramientas. Como un paso adicional, contribuimos con un conjunto de datos de entrenamiento a gran escala con más de 200k instancias, lo que optimiza sustancialmente la capacidad de recuperación de herramientas de los modelos IR.
English
Tool learning aims to augment large language models (LLMs) with diverse
tools, enabling them to act as agents for solving practical tasks. Due to the
limited context length of tool-using LLMs, adopting information retrieval (IR)
models to select useful tools from large toolsets is a critical initial step.
However, the performance of IR models in tool retrieval tasks remains
underexplored and unclear. Most tool-use benchmarks simplify this step by
manually pre-annotating a small set of relevant tools for each task, which is
far from the real-world scenarios. In this paper, we propose ToolRet, a
heterogeneous tool retrieval benchmark comprising 7.6k diverse retrieval tasks,
and a corpus of 43k tools, collected from existing datasets. We benchmark six
types of models on ToolRet. Surprisingly, even the models with strong
performance in conventional IR benchmarks, exhibit poor performance on ToolRet.
This low retrieval quality degrades the task pass rate of tool-use LLMs. As a
further step, we contribute a large-scale training dataset with over 200k
instances, which substantially optimizes the tool retrieval ability of IR
models.Summary
AI-Generated Summary