ToolSense: Uma Estrutura Diagnóstica para Auditoria de Conhecimento Paramétrico de Ferramentas em LLMs

Resumo

Modelos de linguagem amplos implantados como agentes sobre catálogos extensos de ferramentas enfrentam um gargalo crítico na recuperação de ferramentas. Como as abordagens de recuperação baseadas em embeddings dependem de codificadores compactos que podem subestimar a semântica especializada das ferramentas, a recuperação paramétrica de ferramentas aborda isso codificando cada ferramenta como um token virtual anexado ao vocabulário do LLM, ajustado em dois estágios (memorização e depois SFT de recuperação) para usar o LLM como um recuperador, alcançando desempenho forte nos benchmarks padrão de recuperação do ToolBench. No entanto, esses benchmarks utilizam consultas verbosas e totalmente especificadas, e sua avaliação aplica decodificação restrita que limita as saídas a caminhos de token válidos, o que não revela se o modelo realmente compreende suas ferramentas. Apresentamos o ToolSense, uma estrutura de diagnóstico baseada em LLM de código aberto que aceita qualquer catálogo de ferramentas como entrada e gera automaticamente três benchmarks: um Benchmark de Recuperação Realista (RRB) com consultas em três níveis de ambuiguidade, um benchmark de sondagem MCQ e um benchmark de sondagem QA. A aplicação do ToolSense ao ToolBench (~47 mil ferramentas) e a avaliação de cinco configurações de treinamento de modelo paramétrico revelam uma dissociação conhecimento-recuperação: em consultas RRB, várias configurações colapsam em ~50-64 pontos percentuais em comparação com os benchmarks totalmente especificados do ToolBench, ficando abaixo da linha de base do modelo de embeddings. Além disso, apesar do forte desempenho em recuperação, alguns modelos pontuam quase aleatoriamente em sondagens factuais, sugerindo uma dissociação conhecimento-recuperação. Disponibilizamos o framework ToolSense e os benchmarks de diagnóstico do ToolBench como código aberto em https://github.com/SAP/toolsense.

English

Large language models deployed as agents over large tool catalogs face a critical tool-retrieval bottleneck. As embedding-based retrieval approaches rely on compact encoders that may under-capture specialized tool semantics, parametric tool retrieval addresses this by encoding each tool as a virtual token appended to the LLM vocabulary, fine-tuned in two stages (memorization then retrieval SFT) to use the LLM as a retriever, achieving strong performance on standard ToolBench retrieval benchmarks. Yet these benchmarks use verbose, fully-specified queries, and their evaluation applies constrained decoding that restricts outputs to valid token paths, neither reveals whether the model actually understands its tools. We introduce ToolSense, an open-source LLM-powered diagnostic framework that takes any tool catalog as input and automatically generates three benchmarks: a Realistic Retrieval Benchmark (RRB) with queries at three ambiguity tiers, an MCQ probing benchmark, and a QA probing benchmark. Applying ToolSense to ToolBench (~47k tools) and evaluating five parametric model training configurations reveals a knowledge-retrieval dissociation: on RRB queries, several configurations collapse by ~50-64 percentage points compared to fully-specified ToolBench benchmarks, falling below the embedding-model baseline. Additionally, despite strong retrieval performance, some models score near-random on factual probes, suggesting a knowledge-retrieval dissociation. We open-source the ToolSense framework and the ToolBench diagnostic benchmarks at https://github.com/SAP/toolsense.