ChatPaper.aiChatPaper

検索モデルはツール操作に不慣れ:大規模言語モデルのためのツール検索ベンチマーク

Retrieval Models Aren't Tool-Savvy: Benchmarking Tool Retrieval for Large Language Models

March 3, 2025
著者: Zhengliang Shi, Yuhan Wang, Lingyong Yan, Pengjie Ren, Shuaiqiang Wang, Dawei Yin, Zhaochun Ren
cs.AI

要旨

ツール学習は、大規模言語モデル(LLM)に多様なツールを組み込むことで、実用的なタスクを解決するエージェントとして機能させることを目指しています。ツール利用型LLMのコンテキスト長が限られているため、大規模なツールセットから有用なツールを選択するために情報検索(IR)モデルを採用することが重要な初期ステップです。しかし、ツール検索タスクにおけるIRモデルの性能は未解明であり、不明瞭です。ほとんどのツール利用ベンチマークでは、各タスクに関連する少数のツールを手動で事前に注釈付けすることでこのステップを簡略化しており、これは現実のシナリオとはかけ離れています。本論文では、既存のデータセットから収集した43kのツールを含む7.6kの多様な検索タスクからなる異種ツール検索ベンチマーク「ToolRet」を提案します。ToolRetにおいて6種類のモデルをベンチマークしました。驚くべきことに、従来のIRベンチマークで強力な性能を示すモデルでさえ、ToolRetでは低い性能しか発揮しませんでした。この低い検索品質は、ツール利用型LLMのタスク通過率を低下させます。さらに、200k以上のインスタンスを含む大規模なトレーニングデータセットを提供し、IRモデルのツール検索能力を大幅に最適化しました。
English
Tool learning aims to augment large language models (LLMs) with diverse tools, enabling them to act as agents for solving practical tasks. Due to the limited context length of tool-using LLMs, adopting information retrieval (IR) models to select useful tools from large toolsets is a critical initial step. However, the performance of IR models in tool retrieval tasks remains underexplored and unclear. Most tool-use benchmarks simplify this step by manually pre-annotating a small set of relevant tools for each task, which is far from the real-world scenarios. In this paper, we propose ToolRet, a heterogeneous tool retrieval benchmark comprising 7.6k diverse retrieval tasks, and a corpus of 43k tools, collected from existing datasets. We benchmark six types of models on ToolRet. Surprisingly, even the models with strong performance in conventional IR benchmarks, exhibit poor performance on ToolRet. This low retrieval quality degrades the task pass rate of tool-use LLMs. As a further step, we contribute a large-scale training dataset with over 200k instances, which substantially optimizes the tool retrieval ability of IR models.

Summary

AI-Generated Summary

PDF42March 6, 2025