ToolSense : un cadre de diagnostic pour auditer les connaissances paramétriques des outils dans les LLMs

Résumé

Les grands modèles de langage déployés en tant qu'agents sur de vastes catalogues d'outils sont confrontés à un goulot d'étranglement critique dans la recherche d'outils. Alors que les approches de recherche par plongement vectoriel reposent sur des encodeurs compacts qui peuvent mal capturer les sémantiques spécialisées des outils, la recherche paramétrique d'outils résout ce problème en encodant chaque outil comme un jeton virtuel ajouté au vocabulaire du LLM, affiné en deux étapes (mémorisation puis SFT de recherche) pour utiliser le LLM comme moteur de recherche, atteignant des performances élevées sur les benchmarks standard de recherche ToolBench. Cependant, ces benchmarks utilisent des requêtes verbouses et entièrement spécifiées, et leur évaluation applique un décodage contraint qui limite les sorties à des chemins de jetons valides, sans révéler si le modèle comprend réellement ses outils. Nous présentons ToolSense, un cadre diagnostique open-source basé sur LLM qui prend n'importe quel catalogue d'outils en entrée et génère automatiquement trois benchmarks : un benchmark de recherche réaliste (RRB) avec des requêtes à trois niveaux d'ambiguïté, un benchmark de sondage par QCM et un benchmark de sondage par questions-réponses. En appliquant ToolSense à ToolBench (~47 000 outils) et en évaluant cinq configurations d'entraînement paramétrique de modèles, nous révélons une dissociation connaissance-recherche : sur les requêtes RRB, plusieurs configurations chutent d'environ 50 à 64 points de pourcentage par rapport aux benchmarks ToolBench entièrement spécifiés, tombant en dessous de la ligne de base du modèle de plongement vectoriel. De plus, malgré des performances élevées en recherche, certains modèles obtiennent des scores proches du hasard sur les sondages factuels, suggérant une dissociation connaissance-recherche. Nous publions en open source le cadre ToolSense et les benchmarks diagnostiques ToolBench à l'adresse https://github.com/SAP/toolsense.

English

Large language models deployed as agents over large tool catalogs face a critical tool-retrieval bottleneck. As embedding-based retrieval approaches rely on compact encoders that may under-capture specialized tool semantics, parametric tool retrieval addresses this by encoding each tool as a virtual token appended to the LLM vocabulary, fine-tuned in two stages (memorization then retrieval SFT) to use the LLM as a retriever, achieving strong performance on standard ToolBench retrieval benchmarks. Yet these benchmarks use verbose, fully-specified queries, and their evaluation applies constrained decoding that restricts outputs to valid token paths, neither reveals whether the model actually understands its tools. We introduce ToolSense, an open-source LLM-powered diagnostic framework that takes any tool catalog as input and automatically generates three benchmarks: a Realistic Retrieval Benchmark (RRB) with queries at three ambiguity tiers, an MCQ probing benchmark, and a QA probing benchmark. Applying ToolSense to ToolBench (~47k tools) and evaluating five parametric model training configurations reveals a knowledge-retrieval dissociation: on RRB queries, several configurations collapse by ~50-64 percentage points compared to fully-specified ToolBench benchmarks, falling below the embedding-model baseline. Additionally, despite strong retrieval performance, some models score near-random on factual probes, suggesting a knowledge-retrieval dissociation. We open-source the ToolSense framework and the ToolBench diagnostic benchmarks at https://github.com/SAP/toolsense.