Modelos de Recuperação Não São Hábeis com Ferramentas: Avaliando a Recuperação de Ferramentas para Modelos de Linguagem de Grande Escala
Retrieval Models Aren't Tool-Savvy: Benchmarking Tool Retrieval for Large Language Models
March 3, 2025
Autores: Zhengliang Shi, Yuhan Wang, Lingyong Yan, Pengjie Ren, Shuaiqiang Wang, Dawei Yin, Zhaochun Ren
cs.AI
Resumo
O aprendizado de ferramentas visa aprimorar grandes modelos de linguagem (LLMs) com diversas ferramentas, permitindo que atuem como agentes para resolver tarefas práticas. Devido ao comprimento limitado do contexto dos LLMs que utilizam ferramentas, a adoção de modelos de recuperação de informação (IR) para selecionar ferramentas úteis de grandes conjuntos de ferramentas é uma etapa inicial crítica. No entanto, o desempenho dos modelos IR em tarefas de recuperação de ferramentas permanece pouco explorado e incerto. A maioria dos benchmarks de uso de ferramentas simplifica essa etapa ao pré-anotar manualmente um pequeno conjunto de ferramentas relevantes para cada tarefa, o que está longe dos cenários do mundo real. Neste artigo, propomos o ToolRet, um benchmark heterogêneo de recuperação de ferramentas composto por 7,6 mil tarefas de recuperação diversas e um corpus de 43 mil ferramentas, coletados de conjuntos de dados existentes. Avaliamos seis tipos de modelos no ToolRet. Surpreendentemente, mesmo os modelos com forte desempenho em benchmarks convencionais de IR exibem um desempenho ruim no ToolRet. Essa baixa qualidade de recuperação degrada a taxa de sucesso das tarefas dos LLMs que utilizam ferramentas. Como um passo adicional, contribuímos com um conjunto de dados de treinamento em larga escala com mais de 200 mil instâncias, que otimiza substancialmente a capacidade de recuperação de ferramentas dos modelos IR.
English
Tool learning aims to augment large language models (LLMs) with diverse
tools, enabling them to act as agents for solving practical tasks. Due to the
limited context length of tool-using LLMs, adopting information retrieval (IR)
models to select useful tools from large toolsets is a critical initial step.
However, the performance of IR models in tool retrieval tasks remains
underexplored and unclear. Most tool-use benchmarks simplify this step by
manually pre-annotating a small set of relevant tools for each task, which is
far from the real-world scenarios. In this paper, we propose ToolRet, a
heterogeneous tool retrieval benchmark comprising 7.6k diverse retrieval tasks,
and a corpus of 43k tools, collected from existing datasets. We benchmark six
types of models on ToolRet. Surprisingly, even the models with strong
performance in conventional IR benchmarks, exhibit poor performance on ToolRet.
This low retrieval quality degrades the task pass rate of tool-use LLMs. As a
further step, we contribute a large-scale training dataset with over 200k
instances, which substantially optimizes the tool retrieval ability of IR
models.Summary
AI-Generated Summary