LLM-агенты уже знают, когда вызывать инструменты — даже без рассуждения.
LLM Agents Already Know When to Call Tools -- Even Without Reasoning
May 10, 2026
Авторы: Chung-En Sun, Linbo Liu, Ge Yan, Zimo Wang, Tsui-Wei Weng
cs.AI
Аннотация
Агенты LLM, дополненные инструментами, как правило, вызывают инструменты без разбора, даже когда модель может ответить напрямую. Каждый ненужный вызов приводит к расходам на API и увеличению задержки, однако ни один существующий бенчмарк систематически не изучает, когда вызов инструмента действительно необходим. Мы предлагаем When2Tool — бенчмарк из 18 сред (15 одношаговых, 3 многошаговых), охватывающих три категории необходимости использования инструмента: масштаб вычислений, границы знаний и надежность выполнения. Каждая категория содержит контролируемые уровни сложности, которые создают четкую границу решений между задачами, требующими инструмент, и задачами, не требующими его. Мы оцениваем два семейства базовых методов без обучения: Prompt-only (варьирование подсказки для снижения числа ненужных вызовов) и Reason-then-Act (требование к модели обосновать необходимость инструмента перед действием). Оба обеспечивают ограниченный контроль: Prompt-only подавляет как ненужные, так и необходимые вызовы, а Reason-then-Act по-прежнему несет непропорциональные потери точности на сложных задачах. Чтобы понять, почему эти базовые методы дают сбой, мы исследуем скрытые состояния моделей и обнаруживаем, что необходимость использования инструмента линейно декодируется из предгенерационного представления с AUROC от 0,89 до 0,96 для шести моделей, что существенно превосходит вербализованные рассуждения самой модели. Это показывает, что модели уже знают, когда инструменты нужны, но не действуют в соответствии с этим знанием в процессе генерации. Основываясь на этом результате, мы предлагаем Probe&Prefill — метод, который использует легковесный линейный зонд для считывания сигнала из скрытого состояния и предзаполняет ответ модели управляющим предложением. На всех протестированных моделях Probe&Prefill сокращает количество вызовов инструментов на 48% при потере точности всего в 1,7%, в то время как лучший базовый метод при сопоставимой точности сокращает лишь 6% вызовов, либо достигает аналогичного сокращения, но с потерей точности в 5 раз выше. Наш код доступен по адресу https://github.com/Trustworthy-ML-Lab/when2tool
English
Tool-augmented LLM agents tend to call tools indiscriminately, even when the model can answer directly. Each unnecessary call wastes API fees and latency, yet no existing benchmark systematically studies when a tool call is actually needed. We propose When2Tool, a benchmark of 18 environments (15 single-hop, 3 multi-hop) spanning three categories of tool necessity -- computational scale, knowledge boundaries, and execution reliability -- each with controlled difficulty levels that create a clear decision boundary between tool-necessary and tool-unnecessary tasks. We evaluate two families of training-free baselines: Prompt-only (varying the prompt to discourage unnecessary calls) and Reason-then-Act (requiring the model to reason about tool necessity before acting). Both provide limited control: Prompt-only suppresses necessary calls alongside unnecessary ones, and Reason-then-Act still incurs a disproportionate accuracy cost on hard tasks. To understand why these baselines fail, we probe the models' hidden states and find that tool necessity is linearly decodable from the pre-generation representation with AUROC 0.89--0.96 across six models, substantially exceeding the model's own verbalized reasoning. This reveals that models already know when tools are needed, but fail to act on this knowledge during generation. Building on this finding, we propose Probe&Prefill, which uses a lightweight linear probe to read the hidden-state signal and prefills the model's response with a steering sentence. Across all models tested, Probe&Prefill reduces tool calls by 48% with only 1.7% accuracy loss, while the best baseline at comparable accuracy only reduces 6% of tool calls, or achieves a similar tool call reduction but incurs a 5times higher accuracy loss. Our code is available at https://github.com/Trustworthy-ML-Lab/when2tool