La Necesidad de Herramientas Adaptativa al Modelo Revela la Brecha entre el Conocimiento y la Acción en el Uso de Herramientas de LLM
Model-Adaptive Tool Necessity Reveals the Knowing-Doing Gap in LLM Tool Use
May 13, 2026
Autores: Yize Cheng, Chenrui Fan, Mahdi JafariRaviz, Keivan Rezaei, Soheil Feiz
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs) actúan cada vez más como agentes autónomos que deben decidir cuándo responder directamente y cuándo recurrir a herramientas externas. Trabajos previos sobre el uso adaptativo de herramientas han tratado en gran medida la necesidad de estas como una propiedad independiente del modelo, anotada por un humano o un juez LLM, y mayormente cubren casos donde la respuesta es obvia (por ejemplo, consultar el clima frente a parafrasear texto). Sin embargo, la necesidad de herramientas en escenarios reales es más matizada debido a la divergencia de límites de capacidad entre modelos: un problema que un modelo fuerte puede resolver por sí solo puede requerir herramientas para uno más débil. En este trabajo, introducimos una definición adaptativa al modelo de necesidad de herramientas, basada en el rendimiento empírico de cada modelo. Siguiendo esta definición, comparamos la necesidad con el comportamiento observado de llamadas a herramientas en cuatro modelos sobre conjuntos de datos de aritmética y preguntas factuales, y encontramos desajustes sustanciales del 26,5-54,0% y 30,8-41,8%, respectivamente. Para diagnosticar el fallo, descomponemos el uso de herramientas en dos etapas: una etapa de cognición interna que refleja si un modelo cree que una herramienta es necesaria, y una etapa de ejecución que determina si el modelo realmente realiza una acción de llamada a herramienta. Al sondear los estados ocultos del LLM, encontramos que ambas señales suelen ser decodificables linealmente, aunque sus direcciones de sonda se vuelven casi ortogonales en el régimen de última capa y último token que impulsa la acción del siguiente token. Al rastrear la trayectoria de las muestras en el proceso de dos etapas, descubrimos además que la mayoría del desajuste se concentra en la transición de cognición a acción, no en la cognición misma. Estos resultados revelan una brecha entre saber y hacer en el uso de herramientas por parte de los LLM: mejorar la fiabilidad del uso de herramientas requiere no solo un mejor reconocimiento de cuándo se necesitan herramientas, sino también una mejor traducción de ese reconocimiento en acción.
English
Large language models (LLMs) increasingly act as autonomous agents that must decide when to answer directly vs. when to invoke external tools. Prior work studying adaptive tool use has largely treated tool necessity as a model-agnostic property, annotated by human or LLM judge, and mostly cover cases where the answer is obvious (e.g., fetching the weather vs. paraphrasing text). However, tool necessity in the wild is more nuanced due to the divergence of capability boundaries across models: a problem solvable by a strong model on its own may still require tools for a weaker one. In this work, we introduce a model-adaptive definition of tool-necessity, grounded in each model's empirical performance. Following this definition, we compare the necessity against observed tool-call behavior across four models on arithmetic and factual QA dataset, and find substantial mismatches of 26.5-54.0% and 30.8-41.8%, respectively. To diagnose the failure, we decompose tool use into two stages: an internal cognition stage that reflects whether a model believes a tool is necessary, and an execution stage that determines whether the model actually makes a tool-call action. By probing the LLM hidden states, we find that both signals are often linearly decodable, yet their probe directions become nearly orthogonal in the late-layer, last-token regime that drives the next-token action. By tracing the trajectory of samples in the two-stage process, we further discover that the majority of mismatch is concentrated in the cognition-to-action transition, not in cognition itself. These results reveal a knowing-doing gap in LLM tool-use: improving tool-use reliability requires not only better recognition of when tools are needed, but also better translation of that recognition into action.