Von Beweis zu Programm: Charakterisierung werkzeuginduzierter Denkhalluzinationen in großen Sprachmodellen

papers.abstract

Tool-augmented Language Models (TaLMs) können externe Werkzeuge aufrufen, um Probleme zu lösen, die über ihre parametrische Kapazität hinausgehen. Es ist jedoch unklar, ob diese durch Werkzeuge erzielten Verbesserungen vertrauenswürdige Schlussfolgerungen widerspiegeln. Mit Fokus auf das Code Interpreter-Werkzeug zeigen wir, dass TaLMs Werkzeugausgaben selbst bei korrekter Auswahl und Ausführung als Ersatz für die Argumentation behandeln und Lösungen produzieren, die korrekt erscheinen, aber keine schlüssige Begründung aufweisen. Wir bezeichnen diesen Fehlermodus als Tool-Induced Myopia (TIM) und untersuchen ihn mit PYMATH, einem Benchmark von 1.679 mathematischen Wettbewerbsproblemen, für die Python-Code hilfreich, aber nicht ausreichend ist. Wir entwickeln weiterhin eine mehrdimensionale Evaluierungssuite, um die Verschlechterung der Argumentation in TaLMs im Vergleich zu ihren nicht-werkzeugbasierten Gegenstücken zu quantifizieren. Unsere Ergebnisse zeigen, dass TaLMs zwar eine Steigerung der Endantwortgenauigkeit von bis zu 19,3 Prozentpunkten erzielen, ihr Argumentationsverhalten jedoch konsequent abnimmt (z.B. schneiden nicht-werkzeugbasierte LLMs in paarweisen Vergleichen des Argumentationsprozesses bis zu 41,5 % häufiger besser ab). Diese Verschlechterung verstärkt sich mit der Werkzeugnutzung; je häufiger ein Modell Werkzeuge aufruft, desto weniger kohärent wird seine Argumentation. Darüber hinaus verlagert die Werkzeugnutzung Fehler von arithmetischen Fehlern hin zu globalen Argumentationsfehlern (Logik, Annahmen, Kreativität); TIM ist in ~55 % der Hochrisikofälle vorhanden. Schließlich schlagen wir ein auf Präferenzoptimierung basierendes Framework vor, das TaLMs neu ausrichtet, um Werkzeuge als unterstützende Evidenz zu nutzen, was sowohl die Endantwortgenauigkeit als auch die Argumentationstiefe bei Werkzeugnutzung verbessert. Codes und Daten sind verfügbar unter: https://github.com/megagonlabs/TIM.

English

Tool-augmented Language Models (TaLMs) can invoke external tools to solve problems beyond their parametric capacity. However, it remains unclear whether these tool-enabled gains reflect trustworthy reasoning. Focusing on the Code Interpreter tool, we show that even when tools are selected and executed correctly, TaLMs treat tool outputs as substitutes for reasoning, producing solutions that appear correct but lack coherent justification. We term this failure mode Tool-Induced Myopia (TIM), and study it using PYMATH, a benchmark of 1,679 competition-level mathematical problems for which Python code is helpful but not sufficient. We further develop a multi-dimensional evaluation suite to quantify reasoning degradation in TaLMs relative to their non-tool counterparts. Our findings reveal that while TaLMs achieve up to a 19.3 percentage point gain in final-answer accuracy, their reasoning behavior consistently deteriorates (e.g., non-tool LLMs win up to 41.5% more often in pairwise comparisons of the reasoning process). This degradation intensifies with tool use; the more frequently a model invokes tools, the less coherent its reasoning becomes. Moreover, tool use shifts errors from arithmetic mistakes toward global reasoning failures (logic, assumption, creativity); with TIM present in ~55% of high-risk cases. Finally, we propose a preference-optimization-based framework that realigns TaLMs to use tools as assistive evidence, improving both final-answer accuracy and reasoning depth under tool use. Codes and data are available at: https://github.com/megagonlabs/TIM.

Von Beweis zu Programm: Charakterisierung werkzeuginduzierter Denkhalluzinationen in großen Sprachmodellen

From Proof to Program: Characterizing Tool-Induced Reasoning Hallucinations in Large Language Models

papers.abstract

Support