ChatPaper.aiChatPaper

검색 모델은 도구 활용에 능숙하지 않음: 대규모 언어 모델을 위한 도구 검색 벤치마킹

Retrieval Models Aren't Tool-Savvy: Benchmarking Tool Retrieval for Large Language Models

March 3, 2025
저자: Zhengliang Shi, Yuhan Wang, Lingyong Yan, Pengjie Ren, Shuaiqiang Wang, Dawei Yin, Zhaochun Ren
cs.AI

초록

도구 학습은 대형 언어 모델(LLM)에 다양한 도구를 통합하여 실용적인 과제 해결을 위한 에이전트로 기능하도록 확장하는 것을 목표로 합니다. 도구 사용 LLM의 제한된 컨텍스트 길이로 인해, 대규모 도구 세트에서 유용한 도구를 선택하기 위해 정보 검색(IR) 모델을 채택하는 것은 중요한 초기 단계입니다. 그러나 도구 검색 작업에서 IR 모델의 성능은 아직 충분히 탐구되지 않았으며 명확하지 않습니다. 대부분의 도구 사용 벤치마크는 각 작업에 대해 소수의 관련 도구를 수동으로 사전 주석 처리하여 이 단계를 단순화하는데, 이는 실제 시나리오와는 거리가 있습니다. 본 논문에서는 기존 데이터셋에서 수집된 43k개의 도구와 7.6k개의 다양한 검색 작업으로 구성된 이종 도구 검색 벤치마크인 ToolRet를 제안합니다. ToolRet에서 6가지 유형의 모델을 벤치마킹한 결과, 기존 IR 벤치마크에서 강력한 성능을 보인 모델들조차 ToolRet에서는 낮은 성능을 보였습니다. 이러한 낮은 검색 품질은 도구 사용 LLM의 작업 통과율을 저하시킵니다. 추가적으로, 200k개 이상의 인스턴스로 구성된 대규모 훈련 데이터셋을 제공하여 IR 모델의 도구 검색 능력을 크게 최적화했습니다.
English
Tool learning aims to augment large language models (LLMs) with diverse tools, enabling them to act as agents for solving practical tasks. Due to the limited context length of tool-using LLMs, adopting information retrieval (IR) models to select useful tools from large toolsets is a critical initial step. However, the performance of IR models in tool retrieval tasks remains underexplored and unclear. Most tool-use benchmarks simplify this step by manually pre-annotating a small set of relevant tools for each task, which is far from the real-world scenarios. In this paper, we propose ToolRet, a heterogeneous tool retrieval benchmark comprising 7.6k diverse retrieval tasks, and a corpus of 43k tools, collected from existing datasets. We benchmark six types of models on ToolRet. Surprisingly, even the models with strong performance in conventional IR benchmarks, exhibit poor performance on ToolRet. This low retrieval quality degrades the task pass rate of tool-use LLMs. As a further step, we contribute a large-scale training dataset with over 200k instances, which substantially optimizes the tool retrieval ability of IR models.

Summary

AI-Generated Summary

PDF42March 6, 2025