Die modelladaptive Werkzeugnotwendigkeit offenbart die Kluft zwischen Wissen und Handeln bei der Nutzung von LLM-Werkzeugen.

Zusammenfassung

Große Sprachmodelle (LLMs) agieren zunehmend als autonome Agenten, die entscheiden müssen, wann sie direkt antworten und wann sie externe Werkzeuge aufrufen sollen. Frühere Arbeiten zur adaptiven Werkzeugnutzung haben die Werkzeugnotwendigkeit weitgehend als eine modellunabhängige Eigenschaft behandelt, die von einem menschlichen oder LLM-Richter annotiert wurde, und decken hauptsächlich Fälle ab, in denen die Antwort offensichtlich ist (z. B. Abrufen des Wetters vs. Paraphrasieren von Text). Allerdings ist die Werkzeugnotwendigkeit in der Praxis aufgrund der unterschiedlichen Leistungsgrenzen zwischen Modellen differenzierter: Ein Problem, das ein starkes Modell allein lösen kann, erfordert für ein schwächeres möglicherweise dennoch Werkzeuge. In dieser Arbeit führen wir eine modelladaptive Definition der Werkzeugnotwendigkeit ein, die auf der empirischen Leistung jedes Modells basiert. Gemäß dieser Definition vergleichen wir die Notwendigkeit mit dem beobachteten Werkzeugaufrufverhalten bei vier Modellen auf einem Arithmetik- und Faktenwissensdatensatz und stellen erhebliche Diskrepanzen von 26,5–54,0 % bzw. 30,8–41,8 % fest. Um den Fehler zu diagnostizieren, zerlegen wir die Werkzeugnutzung in zwei Phasen: eine interne Kognitionsphase, die widerspiegelt, ob ein Modell ein Werkzeug für notwendig hält, und eine Ausführungsphase, die bestimmt, ob das Modell tatsächlich einen Werkzeugaufruf durchführt. Durch Sondieren der verborgenen Zustände des LLM stellen wir fest, dass beide Signale oft linear dekodierbar sind, jedoch ihre Sondenrichtungen im späte-Schicht-, letztes-Token-Regime, das die nächste Token-Aktion steuert, nahezu orthogonal werden. Durch die Verfolgung des Verlaufs von Stichproben im zweistufigen Prozess entdecken wir weiterhin, dass der Großteil der Diskrepanz im Übergang von der Kognition zur Aktion konzentriert ist, nicht in der Kognition selbst. Diese Ergebnisse offenbaren eine Kluft zwischen Wissen und Handeln bei der Werkzeugnutzung von LLMs: Die Verbesserung der Zuverlässigkeit der Werkzeugnutzung erfordert nicht nur eine bessere Erkennung, wann Werkzeuge benötigt werden, sondern auch eine bessere Umsetzung dieser Erkennung in Handlungen.

English

Large language models (LLMs) increasingly act as autonomous agents that must decide when to answer directly vs. when to invoke external tools. Prior work studying adaptive tool use has largely treated tool necessity as a model-agnostic property, annotated by human or LLM judge, and mostly cover cases where the answer is obvious (e.g., fetching the weather vs. paraphrasing text). However, tool necessity in the wild is more nuanced due to the divergence of capability boundaries across models: a problem solvable by a strong model on its own may still require tools for a weaker one. In this work, we introduce a model-adaptive definition of tool-necessity, grounded in each model's empirical performance. Following this definition, we compare the necessity against observed tool-call behavior across four models on arithmetic and factual QA dataset, and find substantial mismatches of 26.5-54.0% and 30.8-41.8%, respectively. To diagnose the failure, we decompose tool use into two stages: an internal cognition stage that reflects whether a model believes a tool is necessary, and an execution stage that determines whether the model actually makes a tool-call action. By probing the LLM hidden states, we find that both signals are often linearly decodable, yet their probe directions become nearly orthogonal in the late-layer, last-token regime that drives the next-token action. By tracing the trajectory of samples in the two-stage process, we further discover that the majority of mismatch is concentrated in the cognition-to-action transition, not in cognition itself. These results reveal a knowing-doing gap in LLM tool-use: improving tool-use reliability requires not only better recognition of when tools are needed, but also better translation of that recognition into action.