ToolSense: Een diagnostisch raamwerk voor het auditen van parametrische toolkennis in LLM's

Samenvatting

Grote taalmodellen die als agents worden ingezet over grote toolcatalogi staan voor een kritieke bottleneck bij het ophalen van tools. Aangezien op embeddings gebaseerde retrievalmethoden afhankelijk zijn van compacte encoders die mogelijk gespecialiseerde tool-semantiek onvoldoende vastleggen, pakt parametrische tool-retrieval dit aan door elke tool te coderen als een virtuele token die aan de LLM-vocabulaire wordt toegevoegd, fijn afgesteld in twee fasen (memorisatie gevolgd door retrieval SFT) om de LLM als retriever te gebruiken, wat sterke prestaties levert op standaard ToolBench retrieval-benchmarks. Toch gebruiken deze benchmarks breedsprakige, volledig gespecificeerde queries, en hun evaluatie past constrained decoding toe die outputs beperkt tot geldige tokenpaden, maar onthult niet of het model zijn tools daadwerkelijk begrijpt. We introduceren ToolSense, een open-source, door LLM aangedreven diagnostisch raamwerk dat elke toolcatalogus als invoer neemt en automatisch drie benchmarks genereert: een Realistic Retrieval Benchmark (RRB) met queries op drie dubbelzinnigheidsniveaus, een MCQ-probingbenchmark en een QA-probingbenchmark. Het toepassen van ToolSense op ToolBench (~47k tools) en het evalueren van vijf parametrische modeltrainingsconfiguraties onthult een kennis-retrievaldissociatie: bij RRB-queries vallen verschillende configuraties met ~50-64 procentpunten terug vergeleken met volledig gespecificeerde ToolBench-benchmarks, en komen ze onder de baseline van het embeddingmodel terecht. Bovendien scoren sommige modellen, ondanks sterke retrievalprestaties, bijna willekeurig op feitelijke probes, wat wijst op een kennis-retrievaldissociatie. We bieden het ToolSense-raamwerk en de ToolBench-diagnostische benchmarks aan als open-source op https://github.com/SAP/toolsense.

English

Large language models deployed as agents over large tool catalogs face a critical tool-retrieval bottleneck. As embedding-based retrieval approaches rely on compact encoders that may under-capture specialized tool semantics, parametric tool retrieval addresses this by encoding each tool as a virtual token appended to the LLM vocabulary, fine-tuned in two stages (memorization then retrieval SFT) to use the LLM as a retriever, achieving strong performance on standard ToolBench retrieval benchmarks. Yet these benchmarks use verbose, fully-specified queries, and their evaluation applies constrained decoding that restricts outputs to valid token paths, neither reveals whether the model actually understands its tools. We introduce ToolSense, an open-source LLM-powered diagnostic framework that takes any tool catalog as input and automatically generates three benchmarks: a Realistic Retrieval Benchmark (RRB) with queries at three ambiguity tiers, an MCQ probing benchmark, and a QA probing benchmark. Applying ToolSense to ToolBench (~47k tools) and evaluating five parametric model training configurations reveals a knowledge-retrieval dissociation: on RRB queries, several configurations collapse by ~50-64 percentage points compared to fully-specified ToolBench benchmarks, falling below the embedding-model baseline. Additionally, despite strong retrieval performance, some models score near-random on factual probes, suggesting a knowledge-retrieval dissociation. We open-source the ToolSense framework and the ToolBench diagnostic benchmarks at https://github.com/SAP/toolsense.