La nécessité d'outils adaptative au modèle révèle le fossé entre le savoir et l'action dans l'utilisation d'outils par les LLM.

Résumé

Les grands modèles de langage (LLM) agissent de plus en plus comme des agents autonomes qui doivent décider quand répondre directement et quand recourir à des outils externes. Les travaux antérieurs sur l'utilisation adaptative d'outils ont généralement traité la nécessité d'un outil comme une propriété indépendante du modèle, annotée par un humain ou un juge LLM, et couvrent principalement des cas où la réponse est évidente (par exemple, obtenir la météo plutôt que paraphraser du texte). Cependant, dans la pratique, la nécessité d'un outil est plus nuancée en raison de la divergence des limites de capacité entre les modèles : un problème qu'un modèle puissant peut résoudre seul peut encore nécessiter des outils pour un modèle plus faible. Dans ce travail, nous introduisons une définition de la nécessité d'outil adaptée au modèle, fondée sur la performance empirique de chaque modèle. Suivant cette définition, nous comparons la nécessité avec le comportement observé d'appel d'outils sur quatre modèles, sur des ensembles de données arithmétiques et de questions-réponses factuelles, et constatons des écarts substantiels de 26,5 à 54,0 % et de 30,8 à 41,8 %, respectivement. Pour diagnostiquer l'échec, nous décomposons l'utilisation d'outils en deux étapes : une étape cognitive interne qui reflète si un modèle estime qu'un outil est nécessaire, et une étape d'exécution qui détermine si le modèle entreprend effectivement une action d'appel d'outil. En sondant les états cachés du LLM, nous constatons que ces deux signaux sont souvent linéairement décodables, mais que leurs directions de sondage deviennent presque orthogonales dans le régime du dernier jeton des couches tardives, qui régit l'action du jeton suivant. En traçant la trajectoire des échantillons dans le processus en deux étapes, nous découvrons en outre que la majorité des écarts se concentre dans la transition entre la cognition et l'action, et non dans la cognition elle-même. Ces résultats révèlent un fossé entre le savoir et le faire dans l'utilisation d'outils par les LLM : améliorer la fiabilité de l'utilisation d'outils nécessite non seulement une meilleure reconnaissance du moment où les outils sont nécessaires, mais aussi une meilleure traduction de cette reconnaissance en action.

English

Large language models (LLMs) increasingly act as autonomous agents that must decide when to answer directly vs. when to invoke external tools. Prior work studying adaptive tool use has largely treated tool necessity as a model-agnostic property, annotated by human or LLM judge, and mostly cover cases where the answer is obvious (e.g., fetching the weather vs. paraphrasing text). However, tool necessity in the wild is more nuanced due to the divergence of capability boundaries across models: a problem solvable by a strong model on its own may still require tools for a weaker one. In this work, we introduce a model-adaptive definition of tool-necessity, grounded in each model's empirical performance. Following this definition, we compare the necessity against observed tool-call behavior across four models on arithmetic and factual QA dataset, and find substantial mismatches of 26.5-54.0% and 30.8-41.8%, respectively. To diagnose the failure, we decompose tool use into two stages: an internal cognition stage that reflects whether a model believes a tool is necessary, and an execution stage that determines whether the model actually makes a tool-call action. By probing the LLM hidden states, we find that both signals are often linearly decodable, yet their probe directions become nearly orthogonal in the late-layer, last-token regime that drives the next-token action. By tracing the trajectory of samples in the two-stage process, we further discover that the majority of mismatch is concentrated in the cognition-to-action transition, not in cognition itself. These results reveal a knowing-doing gap in LLM tool-use: improving tool-use reliability requires not only better recognition of when tools are needed, but also better translation of that recognition into action.