LLMエージェントは、推論なしでも、いつツールを呼び出すべきかをすでに知っている
LLM Agents Already Know When to Call Tools -- Even Without Reasoning
May 10, 2026
著者: Chung-En Sun, Linbo Liu, Ge Yan, Zimo Wang, Tsui-Wei Weng
cs.AI
要旨
ツール拡張LLMエージェントは、モデルが直接回答できる場合でも、無差別にツールを呼び出す傾向がある。不要な呼び出しは毎回API費用とレイテンシを浪費するが、既存のベンチマークではツール呼び出しが実際に必要となる条件を体系的に研究していない。本稿では、ツールの必要性の3つのカテゴリー(計算規模、知識境界、実行信頼性)にわたる18の環境(15のシングルホップ、3のマルチホップ)からなるベンチマークWhen2Toolを提案する。各環境は制御された難易度レベルを有し、ツールが必要なタスクと不要なタスクとの間に明確な決定境界を生み出す。我々は2系統の学習不要ベースラインを評価する:プロンプトのみ(不要な呼び出しを抑制するようプロンプトを変更)と、Reason-then-Act(ツールの必要性について推論してから行動するようモデルに要求)。いずれも限定的な制御しか提供しない:プロンプトのみは不要な呼び出しとともに必要な呼び出しも抑制し、Reason-then-Actは困難なタスクにおいて不均衡に高い精度コストを招く。これらのベースラインが失敗する理由を理解するため、モデルの隠れ状態を調査したところ、ツール必要性が生成前表現から線形復号可能であり、6モデルにわたってAUROC 0.89~0.96であり、モデル自身の言語化された推論を大幅に上回ることが判明した。これは、モデルがツールの必要性をすでに認識しているが、生成時にその知識に基づいて行動できないことを示している。この知見に基づき、軽量な線形プローブを用いて隠れ状態信号を読み取り、モデルの応答に誘導文を先頭に付与するProbe&Prefillを提案する。試験した全モデルにおいて、Probe&Prefillはツール呼び出しを48%削減し、精度低下はわずか1.7%であった。一方、同程度の精度で最良のベースラインはツール呼び出しを6%しか削減できず、または同程度のツール呼び出し削減を達成するが5倍の精度低下を招く。コードはhttps://github.com/Trustworthy-ML-Lab/when2toolで公開している。
English
Tool-augmented LLM agents tend to call tools indiscriminately, even when the model can answer directly. Each unnecessary call wastes API fees and latency, yet no existing benchmark systematically studies when a tool call is actually needed. We propose When2Tool, a benchmark of 18 environments (15 single-hop, 3 multi-hop) spanning three categories of tool necessity -- computational scale, knowledge boundaries, and execution reliability -- each with controlled difficulty levels that create a clear decision boundary between tool-necessary and tool-unnecessary tasks. We evaluate two families of training-free baselines: Prompt-only (varying the prompt to discourage unnecessary calls) and Reason-then-Act (requiring the model to reason about tool necessity before acting). Both provide limited control: Prompt-only suppresses necessary calls alongside unnecessary ones, and Reason-then-Act still incurs a disproportionate accuracy cost on hard tasks. To understand why these baselines fail, we probe the models' hidden states and find that tool necessity is linearly decodable from the pre-generation representation with AUROC 0.89--0.96 across six models, substantially exceeding the model's own verbalized reasoning. This reveals that models already know when tools are needed, but fail to act on this knowledge during generation. Building on this finding, we propose Probe&Prefill, which uses a lightweight linear probe to read the hidden-state signal and prefills the model's response with a steering sentence. Across all models tested, Probe&Prefill reduces tool calls by 48% with only 1.7% accuracy loss, while the best baseline at comparable accuracy only reduces 6% of tool calls, or achieves a similar tool call reduction but incurs a 5times higher accuracy loss. Our code is available at https://github.com/Trustworthy-ML-Lab/when2tool