Model-Adaptieve Noodzaak van Hulpmiddelen Onthult de Kennis-Doen Kloof in LLM-Gereedschapsgebruik

Samenvatting

Grote taalmodellen (LLM's) fungeren steeds vaker als autonome agenten die moeten beslissen wanneer ze direct antwoorden versus wanneer ze externe tools aanroepen. Eerder werk naar adaptief toolgebruik heeft de noodzaak van tools grotendeels behandeld als een model-agnostische eigenschap, geannoteerd door een menselijke of LLM-beoordelaar, en behandelt meestal gevallen waarin het antwoord voor de hand ligt (bijv. het ophalen van het weer versus het parafraseren van tekst). De toolnoodzaak in de praktijk is echter genuanceerder vanwege de uiteenlopende capaciteitsgrenzen tussen modellen: een probleem dat door een sterk model alleen kan worden opgelost, kan nog steeds tools vereisen voor een zwakker model. In dit werk introduceren we een model-adaptieve definitie van toolnoodzaak, gebaseerd op de empirische prestaties van elk model. Volgens deze definitie vergelijken we de noodzaak met het waargenomen toolaanroepgedrag bij vier modellen op een rekenkundige en feitelijke QA-dataset, en vinden we aanzienlijke discrepanties van respectievelijk 26,5–54,0% en 30,8–41,8%. Om het falen te diagnosticeren, ontleden we toolgebruik in twee fasen: een interne cognitiefase die weerspiegelt of een model gelooft dat een tool nodig is, en een uitvoeringsfase die bepaalt of het model daadwerkelijk een toolaanroepactie onderneemt. Door de verborgen toestanden van de LLM te onderzoeken, vinden we dat beide signalen vaak lineair decodeerbaar zijn, maar dat hun sondeerrichtingen bijna orthogonaal worden in het regime van de late laag, laatste token, dat de volgende-token-actie aanstuurt. Door het volgen van het traject van voorbeelden in het tweefasenproces ontdekken we verder dat de meerderheid van de discrepantie geconcentreerd is in de overgang van cognitie naar actie, niet in de cognitie zelf. Deze resultaten onthullen een kennis-doen-kloof in LLM-toolgebruik: het verbeteren van de betrouwbaarheid van toolgebruik vereist niet alleen een betere herkenning van wanneer tools nodig zijn, maar ook een betere vertaling van die herkenning naar actie.

English

Large language models (LLMs) increasingly act as autonomous agents that must decide when to answer directly vs. when to invoke external tools. Prior work studying adaptive tool use has largely treated tool necessity as a model-agnostic property, annotated by human or LLM judge, and mostly cover cases where the answer is obvious (e.g., fetching the weather vs. paraphrasing text). However, tool necessity in the wild is more nuanced due to the divergence of capability boundaries across models: a problem solvable by a strong model on its own may still require tools for a weaker one. In this work, we introduce a model-adaptive definition of tool-necessity, grounded in each model's empirical performance. Following this definition, we compare the necessity against observed tool-call behavior across four models on arithmetic and factual QA dataset, and find substantial mismatches of 26.5-54.0% and 30.8-41.8%, respectively. To diagnose the failure, we decompose tool use into two stages: an internal cognition stage that reflects whether a model believes a tool is necessary, and an execution stage that determines whether the model actually makes a tool-call action. By probing the LLM hidden states, we find that both signals are often linearly decodable, yet their probe directions become nearly orthogonal in the late-layer, last-token regime that drives the next-token action. By tracing the trajectory of samples in the two-stage process, we further discover that the majority of mismatch is concentrated in the cognition-to-action transition, not in cognition itself. These results reveal a knowing-doing gap in LLM tool-use: improving tool-use reliability requires not only better recognition of when tools are needed, but also better translation of that recognition into action.