ToolSense: Un Marco de Diagnóstico para Auditar el Conocimiento Paramétrico de Herramientas en LLMs

Resumen

Los modelos de lenguaje de gran escala desplegados como agentes sobre catálogos extensos de herramientas enfrentan un cuello de botella crítico en la recuperación de herramientas. Dado que los enfoques de recuperación basados en incrustaciones dependen de codificadores compactos que pueden no capturar adecuadamente la semántica especializada de las herramientas, la recuperación paramétrica de herramientas aborda esto codificando cada herramienta como un token virtual añadido al vocabulario del LLM, ajustado finamente en dos etapas (memorización y luego SFT de recuperación) para usar el LLM como recuperador, logrando un rendimiento sólido en los benchmarks estándar de recuperación de ToolBench. Sin embargo, estos benchmarks emplean consultas detalladas y completamente especificadas, y su evaluación aplica decodificación restringida que limita las salidas a rutas de tokens válidas, sin revelar si el modelo realmente comprende sus herramientas. Presentamos ToolSense, un marco de diagnóstico de código abierto basado en LLM que toma cualquier catálogo de herramientas como entrada y genera automáticamente tres benchmarks: un Benchmark de Recuperación Realista (RRB) con consultas en tres niveles de ambigüedad, un benchmark de sondeo de tipo MCQ y un benchmark de sondeo de tipo QA. Al aplicar ToolSense a ToolBench (~47k herramientas) y evaluar cinco configuraciones de entrenamiento de modelos paramétricos, se revela una disociación entre conocimiento y recuperación: en consultas del RRB, varias configuraciones colapsan entre ~50 y 64 puntos porcentuales en comparación con los benchmarks de ToolBench completamente especificados, cayendo por debajo de la línea base del modelo de incrustaciones. Además, a pesar de un rendimiento sólido en la recuperación, algunos modelos obtienen puntuaciones cercanas al azar en las sondas factuales, lo que sugiere una disociación entre conocimiento y recuperación. Publicamos el marco ToolSense y los benchmarks de diagnóstico de ToolBench en https://github.com/SAP/toolsense.

English

Large language models deployed as agents over large tool catalogs face a critical tool-retrieval bottleneck. As embedding-based retrieval approaches rely on compact encoders that may under-capture specialized tool semantics, parametric tool retrieval addresses this by encoding each tool as a virtual token appended to the LLM vocabulary, fine-tuned in two stages (memorization then retrieval SFT) to use the LLM as a retriever, achieving strong performance on standard ToolBench retrieval benchmarks. Yet these benchmarks use verbose, fully-specified queries, and their evaluation applies constrained decoding that restricts outputs to valid token paths, neither reveals whether the model actually understands its tools. We introduce ToolSense, an open-source LLM-powered diagnostic framework that takes any tool catalog as input and automatically generates three benchmarks: a Realistic Retrieval Benchmark (RRB) with queries at three ambiguity tiers, an MCQ probing benchmark, and a QA probing benchmark. Applying ToolSense to ToolBench (~47k tools) and evaluating five parametric model training configurations reveals a knowledge-retrieval dissociation: on RRB queries, several configurations collapse by ~50-64 percentage points compared to fully-specified ToolBench benchmarks, falling below the embedding-model baseline. Additionally, despite strong retrieval performance, some models score near-random on factual probes, suggesting a knowledge-retrieval dissociation. We open-source the ToolSense framework and the ToolBench diagnostic benchmarks at https://github.com/SAP/toolsense.