LLM-Agenten wissen bereits, wann sie Tools aufrufen sollen – sogar ohne Reasoning.
LLM Agents Already Know When to Call Tools -- Even Without Reasoning
May 10, 2026
Autoren: Chung-En Sun, Linbo Liu, Ge Yan, Zimo Wang, Tsui-Wei Weng
cs.AI
Zusammenfassung
Tool-erweiterte LLM-Agenten neigen dazu, Tools wahllos aufzurufen, selbst wenn das Modell die Antwort direkt geben könnte. Jeder unnötige Aufruf kostet API-Gebühren und erhöht die Latenz, doch bisher untersucht kein bestehender Benchmark systematisch, wann ein Tool-Aufruf tatsächlich erforderlich ist. Wir schlagen When2Tool vor, einen Benchmark mit 18 Umgebungen (15 Single-Hop, 3 Multi-Hop) aus drei Kategorien der Tool-Notwendigkeit – Rechenskalierung, Wissensgrenzen und Ausführungszuverlässigkeit – jeweils mit kontrollierten Schwierigkeitsgraden, die eine klare Entscheidungsgrenze zwischen tool-notwendigen und tool-unnotwendigen Aufgaben schaffen. Wir evaluieren zwei Familien von trainingsfreien Baselines: Prompt-only (Variation des Prompts, um unnötige Aufrufe zu unterbinden) und Reason-then-Act (das Modell muss vor der Handlung über die Tool-Notwendigkeit nachdenken). Beide bieten nur begrenzte Kontrolle: Prompt-only unterdrückt notwendige Aufrufe ebenso wie unnötige, und Reason-then-Act führt bei schwierigen Aufgaben immer noch einen unverhältnismäßigen Genauigkeitsverlust herbei. Um zu verstehen, warum diese Baselines versagen, untersuchen wir die verborgenen Zustände der Modelle und stellen fest, dass die Tool-Notwendigkeit mit einer AUROC von 0,89–0,96 über sechs Modelle hinweg linear aus der Repräsentation vor der Generierung decodierbar ist, was die verbalisierte Argumentation des Modells selbst deutlich übertrifft. Dies zeigt, dass Modelle bereits wissen, wann Werkzeuge benötigt werden, aber während der Generierung nicht nach diesem Wissen handeln. Aufbauend auf dieser Erkenntnis schlagen wir Probe&Prefill vor, das einen leichten linearen Proben verwendet, um das Signal aus dem verborgenen Zustand zu lesen und die Antwort des Modells mit einem lenkenden Satz vorzubelegen. Bei allen getesteten Modellen reduziert Probe&Prefill die Tool-Aufrufe um 48 % bei einem Genauigkeitsverlust von nur 1,7 %, während die beste Baseline bei vergleichbarer Genauigkeit nur 6 % der Tool-Aufrufe reduziert oder eine ähnliche Reduzierung der Tool-Aufrufe erreicht, aber einen fünffach höheren Genauigkeitsverlust verzeichnet. Unser Code ist verfügbar unter https://github.com/Trustworthy-ML-Lab/when2tool.
English
Tool-augmented LLM agents tend to call tools indiscriminately, even when the model can answer directly. Each unnecessary call wastes API fees and latency, yet no existing benchmark systematically studies when a tool call is actually needed. We propose When2Tool, a benchmark of 18 environments (15 single-hop, 3 multi-hop) spanning three categories of tool necessity -- computational scale, knowledge boundaries, and execution reliability -- each with controlled difficulty levels that create a clear decision boundary between tool-necessary and tool-unnecessary tasks. We evaluate two families of training-free baselines: Prompt-only (varying the prompt to discourage unnecessary calls) and Reason-then-Act (requiring the model to reason about tool necessity before acting). Both provide limited control: Prompt-only suppresses necessary calls alongside unnecessary ones, and Reason-then-Act still incurs a disproportionate accuracy cost on hard tasks. To understand why these baselines fail, we probe the models' hidden states and find that tool necessity is linearly decodable from the pre-generation representation with AUROC 0.89--0.96 across six models, substantially exceeding the model's own verbalized reasoning. This reveals that models already know when tools are needed, but fail to act on this knowledge during generation. Building on this finding, we propose Probe&Prefill, which uses a lightweight linear probe to read the hidden-state signal and prefills the model's response with a steering sentence. Across all models tested, Probe&Prefill reduces tool calls by 48% with only 1.7% accuracy loss, while the best baseline at comparable accuracy only reduces 6% of tool calls, or achieves a similar tool call reduction but incurs a 5times higher accuracy loss. Our code is available at https://github.com/Trustworthy-ML-Lab/when2tool