Les agents LLM savent déjà quand appeler des outils — même sans raisonnement.

Résumé

Les agents LLM augmentés par outils ont tendance à appeler les outils de manière indiscriminée, même lorsque le modèle peut répondre directement. Chaque appel inutile augmente les frais d’API et la latence, mais aucun benchmark existant n’étudie systématiquement quand un appel d’outil est réellement nécessaire. Nous proposons When2Tool, un benchmark comprenant 18 environnements (15 à saut unique, 3 à sauts multiples) couvrant trois catégories de nécessité d’outil — échelle computationnelle, limites de connaissance et fiabilité d’exécution — chacun avec des niveaux de difficulté contrôlés qui créent une frontière de décision claire entre les tâches nécessitant un outil et celles n’en nécessitant pas. Nous évaluons deux familles de lignes de base sans entraînement : basé uniquement sur le prompt (qui modifie le prompt pour décourager les appels inutiles) et Raisonner puis Agir (qui exige que le modèle raisonne sur la nécessité de l’outil avant d’agir). Les deux offrent un contrôle limité : le prompt seul supprime les appels nécessaires en même temps que les inutiles, et Raisonner puis Agir entraîne toujours un coût de précision disproportionné sur les tâches difficiles. Pour comprendre pourquoi ces lignes de base échouent, nous sondons les états cachés des modèles et découvrons que la nécessité d’outil est linéairement décoable à partir de la représentation pré-génération avec une AUROC de 0,89 à 0,96 sur six modèles, dépassant largement le raisonnement verbalisé par le modèle lui-même. Cela révèle que les modèles savent déjà quand un outil est nécessaire, mais échouent à agir sur cette connaissance lors de la génération. Partant de ce constat, nous proposons Probe&Prefill, qui utilise une sonde linéaire légère pour lire le signal de l’état caché et pré-remplit la réponse du modèle avec une phrase directrice. Sur tous les modèles testés, Probe&Prefill réduit les appels d’outils de 48 % avec seulement 1,7 % de perte de précision, tandis que la meilleure ligne de base à précision comparable ne réduit les appels que de 6 %, ou atteint une réduction similaire mais avec une perte de précision 5 fois plus élevée. Notre code est disponible sur https://github.com/Trustworthy-ML-Lab/when2tool.

English

Tool-augmented LLM agents tend to call tools indiscriminately, even when the model can answer directly. Each unnecessary call wastes API fees and latency, yet no existing benchmark systematically studies when a tool call is actually needed. We propose When2Tool, a benchmark of 18 environments (15 single-hop, 3 multi-hop) spanning three categories of tool necessity -- computational scale, knowledge boundaries, and execution reliability -- each with controlled difficulty levels that create a clear decision boundary between tool-necessary and tool-unnecessary tasks. We evaluate two families of training-free baselines: Prompt-only (varying the prompt to discourage unnecessary calls) and Reason-then-Act (requiring the model to reason about tool necessity before acting). Both provide limited control: Prompt-only suppresses necessary calls alongside unnecessary ones, and Reason-then-Act still incurs a disproportionate accuracy cost on hard tasks. To understand why these baselines fail, we probe the models' hidden states and find that tool necessity is linearly decodable from the pre-generation representation with AUROC 0.89--0.96 across six models, substantially exceeding the model's own verbalized reasoning. This reveals that models already know when tools are needed, but fail to act on this knowledge during generation. Building on this finding, we propose Probe&Prefill, which uses a lightweight linear probe to read the hidden-state signal and prefills the model's response with a steering sentence. Across all models tested, Probe&Prefill reduces tool calls by 48% with only 1.7% accuracy loss, while the best baseline at comparable accuracy only reduces 6% of tool calls, or achieves a similar tool call reduction but incurs a 5times higher accuracy loss. Our code is available at https://github.com/Trustworthy-ML-Lab/when2tool

Les agents LLM savent déjà quand appeler des outils — même sans raisonnement.

LLM Agents Already Know When to Call Tools -- Even Without Reasoning

Résumé

Support