ToolSense: Ein diagnostisches Rahmenwerk zur Prüfung des parametrischen Werkzeugwissens in LLMs

Zusammenfassung

Große Sprachmodelle, die als Agenten über umfangreiche Werkzeugkataloge eingesetzt werden, stoßen auf einen kritischen Werkzeug-Retrieval-Engpass. Da einbettungsbasierte Retrieval-Ansätze auf kompakte Encoder angewiesen sind, die spezialisierte Werkzeugsemantiken möglicherweise unzureichend erfassen, adressiert das parametrische Werkzeug-Retrieval dieses Problem, indem jedes Werkzeug als ein an das LLM-Vokabular angehängtes virtuelles Token kodiert wird. Dieses wird in zwei Stufen (Memorisierung und dann Retrieval-SFT) feinabgestimmt, um das LLM als Retriever zu nutzen, und erzielt starke Leistungen auf den Standard-Retrieval-Benchmarks von ToolBench. Diese Benchmarks verwenden jedoch verbose, vollständig spezifizierte Abfragen, und ihre Evaluierung wendet eine eingeschränkte Dekodierung an, die die Ausgaben auf gültige Token-Pfade begrenzt – was nicht offenbart, ob das Modell seine Werkzeuge tatsächlich versteht. Wir führen ToolSense ein, ein quelloffenes, LLM-gestütztes Diagnose-Framework, das jeden Werkzeugkatalog als Eingabe nimmt und automatisch drei Benchmarks generiert: einen Realistic Retrieval Benchmark (RRB) mit Abfragen auf drei Ambiguitätsstufen, einen MCQ-Sondierungs-Benchmark und einen QA-Sondierungs-Benchmark. Die Anwendung von ToolSense auf ToolBench (~47.000 Werkzeuge) und die Evaluierung von fünf parametrischen Modell-Trainingskonfigurationen offenbart eine Wissens-Retrieval-Dissoziation: Bei RRB-Abfragen fallen mehrere Konfigurationen um etwa 50–64 Prozentpunkte im Vergleich zu vollständig spezifizierten ToolBench-Benchmarks ab und unterschreiten die Einbettungsmodell-Baseline. Darüber hinaus erzielen einige Modelle trotz starker Retrieval-Leistung nahezu zufällige Ergebnisse bei Fakten-Sondierungen, was auf eine Wissens-Retrieval-Dissoziation hindeutet. Wir stellen das ToolSense-Framework und die ToolBench-Diagnose-Benchmarks unter https://github.com/SAP/toolsense als Open Source zur Verfügung.

English

Large language models deployed as agents over large tool catalogs face a critical tool-retrieval bottleneck. As embedding-based retrieval approaches rely on compact encoders that may under-capture specialized tool semantics, parametric tool retrieval addresses this by encoding each tool as a virtual token appended to the LLM vocabulary, fine-tuned in two stages (memorization then retrieval SFT) to use the LLM as a retriever, achieving strong performance on standard ToolBench retrieval benchmarks. Yet these benchmarks use verbose, fully-specified queries, and their evaluation applies constrained decoding that restricts outputs to valid token paths, neither reveals whether the model actually understands its tools. We introduce ToolSense, an open-source LLM-powered diagnostic framework that takes any tool catalog as input and automatically generates three benchmarks: a Realistic Retrieval Benchmark (RRB) with queries at three ambiguity tiers, an MCQ probing benchmark, and a QA probing benchmark. Applying ToolSense to ToolBench (~47k tools) and evaluating five parametric model training configurations reveals a knowledge-retrieval dissociation: on RRB queries, several configurations collapse by ~50-64 percentage points compared to fully-specified ToolBench benchmarks, falling below the embedding-model baseline. Additionally, despite strong retrieval performance, some models score near-random on factual probes, suggesting a knowledge-retrieval dissociation. We open-source the ToolSense framework and the ToolBench diagnostic benchmarks at https://github.com/SAP/toolsense.