Los agentes LLM ya saben cuándo llamar a herramientas -- incluso sin razonamiento.

Resumen

Los agentes LLM aumentados con herramientas tienden a invocar herramientas de manera indiscriminada, incluso cuando el modelo puede responder directamente. Cada invocación innecesaria desperdicia costos de API y latencia, pero ningún punto de referencia existente estudia sistemáticamente cuándo es realmente necesaria una invocación de herramienta. Proponemos When2Tool, un punto de referencia de 18 entornos (15 de un solo salto, 3 de múltiples saltos) que abarca tres categorías de necesidad de herramientas: escala computacional, límites de conocimiento y fiabilidad de ejecución, cada una con niveles de dificultad controlados que crean un límite de decisión claro entre tareas que requieren herramientas y tareas que no las requieren. Evaluamos dos familias de líneas base sin entrenamiento: Prompt-only (variando la instrucción para desalentar invocaciones innecesarias) y Reason-then-Act (que requiere que el modelo razone sobre la necesidad de la herramienta antes de actuar). Ambos proporcionan un control limitado: Prompt-only suprime invocaciones necesarias junto con las innecesarias, y Reason-then-Act aún incurre en un costo desproporcionado de precisión en tareas difíciles. Para entender por qué estas líneas base fallan, sondamos los estados ocultos de los modelos y encontramos que la necesidad de herramienta es linealmente decodificable a partir de la representación previa a la generación con un AUROC de 0.89–0.96 en seis modelos, superando sustancialmente el razonamiento verbalizado del propio modelo. Esto revela que los modelos ya saben cuándo se necesitan herramientas, pero no actúan en consecuencia durante la generación. Basándonos en este hallazgo, proponemos Probe&Prefill, que utiliza una sonda lineal ligera para leer la señal del estado oculto y completa previamente la respuesta del modelo con una oración directiva. En todos los modelos probados, Probe&Prefill reduce las invocaciones de herramientas en un 48% con solo un 1.7% de pérdida de precisión, mientras que la mejor línea base con una precisión comparable solo reduce el 6% de las invocaciones de herramientas, o logra una reducción similar de invocaciones pero incurre en una pérdida de precisión 5 veces mayor. Nuestro código está disponible en https://github.com/Trustworthy-ML-Lab/when2tool

English

Tool-augmented LLM agents tend to call tools indiscriminately, even when the model can answer directly. Each unnecessary call wastes API fees and latency, yet no existing benchmark systematically studies when a tool call is actually needed. We propose When2Tool, a benchmark of 18 environments (15 single-hop, 3 multi-hop) spanning three categories of tool necessity -- computational scale, knowledge boundaries, and execution reliability -- each with controlled difficulty levels that create a clear decision boundary between tool-necessary and tool-unnecessary tasks. We evaluate two families of training-free baselines: Prompt-only (varying the prompt to discourage unnecessary calls) and Reason-then-Act (requiring the model to reason about tool necessity before acting). Both provide limited control: Prompt-only suppresses necessary calls alongside unnecessary ones, and Reason-then-Act still incurs a disproportionate accuracy cost on hard tasks. To understand why these baselines fail, we probe the models' hidden states and find that tool necessity is linearly decodable from the pre-generation representation with AUROC 0.89--0.96 across six models, substantially exceeding the model's own verbalized reasoning. This reveals that models already know when tools are needed, but fail to act on this knowledge during generation. Building on this finding, we propose Probe&Prefill, which uses a lightweight linear probe to read the hidden-state signal and prefills the model's response with a steering sentence. Across all models tested, Probe&Prefill reduces tool calls by 48% with only 1.7% accuracy loss, while the best baseline at comparable accuracy only reduces 6% of tool calls, or achieves a similar tool call reduction but incurs a 5times higher accuracy loss. Our code is available at https://github.com/Trustworthy-ML-Lab/when2tool

Los agentes LLM ya saben cuándo llamar a herramientas -- incluso sin razonamiento.

LLM Agents Already Know When to Call Tools -- Even Without Reasoning

Resumen

Support