ChatPaper.aiChatPaper

A Necessidade de Ferramentas Adaptativa ao Modelo Revela a Lacuna entre Saber e Fazer no Uso de Ferramentas por LLMs

Model-Adaptive Tool Necessity Reveals the Knowing-Doing Gap in LLM Tool Use

May 13, 2026
Autores: Yize Cheng, Chenrui Fan, Mahdi JafariRaviz, Keivan Rezaei, Soheil Feiz
cs.AI

Resumo

Modelos de linguagem de grande porte (LLMs) atuam cada vez mais como agentes autônomos que precisam decidir quando responder diretamente versus quando recorrer a ferramentas externas. Trabalhos anteriores que estudam o uso adaptativo de ferramentas trataram, em grande parte, a necessidade de ferramentas como uma propriedade independente do modelo, anotada por um juiz humano ou LLM, e abrangeram principalmente casos em que a resposta é óbvia (por exemplo, obter a previsão do tempo vs. parafrasear texto). No entanto, a necessidade de ferramentas em cenários reais é mais sutil devido à divergência de limites de capacidade entre os modelos: um problema resolvível por um modelo forte por conta própria pode ainda exigir ferramentas para um modelo mais fraco. Neste trabalho, introduzimos uma definição adaptativa ao modelo de necessidade de ferramentas, fundamentada no desempenho empírico de cada modelo. Seguindo essa definição, comparamos a necessidade com o comportamento observado de chamadas de ferramentas em quatro modelos em conjuntos de dados aritméticos e de QA factual, e encontramos discrepâncias substanciais de 26,5–54,0% e 30,8–41,8%, respectivamente. Para diagnosticar a falha, decompomos o uso de ferramentas em dois estágios: um estágio de cognição interna que reflete se um modelo acredita que uma ferramenta é necessária, e um estágio de execução que determina se o modelo realmente realiza uma ação de chamada de ferramenta. Ao sondar os estados ocultos dos LLMs, descobrimos que ambos os sinais são frequentemente linearmente decodificáveis, mas suas direções de sonda tornam-se quase ortogonais nas camadas finais e no regime do último token que impulsiona a ação do próximo token. Ao rastrear a trajetória das amostras no processo de dois estágios, descobrimos ainda que a maioria das discrepâncias se concentra na transição da cognição para a ação, não na cognição em si. Esses resultados revelam uma lacuna entre saber e fazer no uso de ferramentas por LLMs: melhorar a confiabilidade do uso de ferramentas exige não apenas um melhor reconhecimento de quando as ferramentas são necessárias, mas também uma melhor tradução desse reconhecimento em ação.
English
Large language models (LLMs) increasingly act as autonomous agents that must decide when to answer directly vs. when to invoke external tools. Prior work studying adaptive tool use has largely treated tool necessity as a model-agnostic property, annotated by human or LLM judge, and mostly cover cases where the answer is obvious (e.g., fetching the weather vs. paraphrasing text). However, tool necessity in the wild is more nuanced due to the divergence of capability boundaries across models: a problem solvable by a strong model on its own may still require tools for a weaker one. In this work, we introduce a model-adaptive definition of tool-necessity, grounded in each model's empirical performance. Following this definition, we compare the necessity against observed tool-call behavior across four models on arithmetic and factual QA dataset, and find substantial mismatches of 26.5-54.0% and 30.8-41.8%, respectively. To diagnose the failure, we decompose tool use into two stages: an internal cognition stage that reflects whether a model believes a tool is necessary, and an execution stage that determines whether the model actually makes a tool-call action. By probing the LLM hidden states, we find that both signals are often linearly decodable, yet their probe directions become nearly orthogonal in the late-layer, last-token regime that drives the next-token action. By tracing the trajectory of samples in the two-stage process, we further discover that the majority of mismatch is concentrated in the cognition-to-action transition, not in cognition itself. These results reveal a knowing-doing gap in LLM tool-use: improving tool-use reliability requires not only better recognition of when tools are needed, but also better translation of that recognition into action.