Da Prova ao Programa: Caracterizando Alucinações de Raciocínio Induzidas por Ferramentas em Modelos de Linguagem de Grande Escala

Resumo

Os Modelos de Linguagem Aumentados por Ferramentas (TaLMs) podem invocar ferramentas externas para resolver problemas além de sua capacidade paramétrica. No entanto, permanece incerto se esses ganhos habilitados por ferramentas refletem um raciocínio confiável. Focando na ferramenta Code Interpreter, demonstramos que mesmo quando as ferramentas são selecionadas e executadas corretamente, os TaLMs tratam as saídas das ferramentas como substitutas do raciocínio, produzindo soluções que parecem corretas, mas carecem de justificação coerente. Denominamos esta falha de **Miopia Induzida por Ferramentas (TIM, do inglês *Tool-Induced Myopia*)**, e a estudamos usando o PYMATH, um *benchmark* com 1.679 problemas matemáticos de nível competitivo para os quais o código Python é útil, mas não suficiente. Desenvolvemos ainda uma suíte de avaliação multidimensional para quantificar a degradação do raciocínio nos TaLMs em relação às suas contrapartes sem ferramentas. Nossos resultados revelam que, embora os TaLMs obtenham um ganho de até 19,3 pontos percentuais na precisão da resposta final, seu comportamento de raciocínio se deteriora consistentemente (por exemplo, LLMs sem ferramentas vencem até 41,5% mais vezes em comparações pareadas do processo de raciocínio). Esta degradação intensifica-se com o uso de ferramentas; quanto mais frequentemente um modelo invoca ferramentas, menos coerente se torna seu raciocínio. Além disso, o uso de ferramentas desloca os erros de equívocos aritméticos para falhas de raciocínio global (lógica, premissa, criatividade); com a TIM presente em ~55% dos casos de alto risco. Finalmente, propomos uma estrutura baseada em otimização de preferências que realinha os TaLMs para usar ferramentas como evidência assistiva, melhorando tanto a precisão da resposta final quanto a profundidade do raciocínio sob uso de ferramentas. Códigos e dados estão disponíveis em: https://github.com/megagonlabs/TIM.

English

Tool-augmented Language Models (TaLMs) can invoke external tools to solve problems beyond their parametric capacity. However, it remains unclear whether these tool-enabled gains reflect trustworthy reasoning. Focusing on the Code Interpreter tool, we show that even when tools are selected and executed correctly, TaLMs treat tool outputs as substitutes for reasoning, producing solutions that appear correct but lack coherent justification. We term this failure mode Tool-Induced Myopia (TIM), and study it using PYMATH, a benchmark of 1,679 competition-level mathematical problems for which Python code is helpful but not sufficient. We further develop a multi-dimensional evaluation suite to quantify reasoning degradation in TaLMs relative to their non-tool counterparts. Our findings reveal that while TaLMs achieve up to a 19.3 percentage point gain in final-answer accuracy, their reasoning behavior consistently deteriorates (e.g., non-tool LLMs win up to 41.5% more often in pairwise comparisons of the reasoning process). This degradation intensifies with tool use; the more frequently a model invokes tools, the less coherent its reasoning becomes. Moreover, tool use shifts errors from arithmetic mistakes toward global reasoning failures (logic, assumption, creativity); with TIM present in ~55% of high-risk cases. Finally, we propose a preference-optimization-based framework that realigns TaLMs to use tools as assistive evidence, improving both final-answer accuracy and reasoning depth under tool use. Codes and data are available at: https://github.com/megagonlabs/TIM.

Da Prova ao Programa: Caracterizando Alucinações de Raciocínio Induzidas por Ferramentas em Modelos de Linguagem de Grande Escala

From Proof to Program: Characterizing Tool-Induced Reasoning Hallucinations in Large Language Models

Resumo

Support