Адаптивная к модели необходимость инструментов раскрывает разрыв между знанием и действием в использовании инструментов LLM

Аннотация

Большие языковые модели (LLM) все чаще выступают в роли автономных агентов, которым необходимо решать, когда отвечать напрямую, а когда обращаться к внешним инструментам. Предыдущие работы, изучающие адаптивное использование инструментов, в основном рассматривали необходимость инструментов как модельно-независимое свойство, аннотированное человеком или LLM-судьей, и охватывали в основном случаи, где ответ очевиден (например, получение прогноза погоды против перефразирования текста). Однако необходимость инструментов в реальных условиях более тонка из-за расхождения границ возможностей разных моделей: задача, решаемая сильной моделью самостоятельно, может все еще требовать инструментов для более слабой. В этой работе мы вводим модельно-адаптивное определение необходимости инструментов, основанное на эмпирической производительности каждой модели. Следуя этому определению, мы сравниваем необходимость с наблюдаемым поведением вызова инструментов на четырех моделях на наборах данных по арифметике и фактическим вопросам-ответам и обнаруживаем существенные несоответствия в 26,5–54,0% и 30,8–41,8% соответственно. Чтобы диагностировать сбой, мы разлагаем использование инструментов на два этапа: этап внутреннего познания, отражающий, считает ли модель инструмент необходимым, и этап выполнения, определяющий, совершает ли модель фактическое действие вызова инструмента. Путем зондирования скрытых состояний LLM мы обнаруживаем, что оба сигнала часто линейно декодируемы, однако направления их зондов становятся почти ортогональными в режиме позднего слоя последнего токена, который управляет действием следующего токена. Прослеживая траекторию выборок в двухэтапном процессе, мы далее обнаруживаем, что большая часть несоответствия сосредоточена в переходе от познания к действию, а не в самом познании. Эти результаты выявляют разрыв между знанием и действием в использовании инструментов LLM: повышение надежности использования инструментов требует не только лучшего распознавания того, когда инструменты необходимы, но и лучшего перевода этого распознавания в действие.

English

Large language models (LLMs) increasingly act as autonomous agents that must decide when to answer directly vs. when to invoke external tools. Prior work studying adaptive tool use has largely treated tool necessity as a model-agnostic property, annotated by human or LLM judge, and mostly cover cases where the answer is obvious (e.g., fetching the weather vs. paraphrasing text). However, tool necessity in the wild is more nuanced due to the divergence of capability boundaries across models: a problem solvable by a strong model on its own may still require tools for a weaker one. In this work, we introduce a model-adaptive definition of tool-necessity, grounded in each model's empirical performance. Following this definition, we compare the necessity against observed tool-call behavior across four models on arithmetic and factual QA dataset, and find substantial mismatches of 26.5-54.0% and 30.8-41.8%, respectively. To diagnose the failure, we decompose tool use into two stages: an internal cognition stage that reflects whether a model believes a tool is necessary, and an execution stage that determines whether the model actually makes a tool-call action. By probing the LLM hidden states, we find that both signals are often linearly decodable, yet their probe directions become nearly orthogonal in the late-layer, last-token regime that drives the next-token action. By tracing the trajectory of samples in the two-stage process, we further discover that the majority of mismatch is concentrated in the cognition-to-action transition, not in cognition itself. These results reveal a knowing-doing gap in LLM tool-use: improving tool-use reliability requires not only better recognition of when tools are needed, but also better translation of that recognition into action.