De la preuve au programme : Caractérisation des hallucinations de raisonnement induites par les outils dans les grands modèles de langage

papers.abstract

Les modèles de langage augmentés d'outils (TaLMs) peuvent invoquer des outils externes pour résoudre des problèmes au-delà de leur capacité paramétrique. Cependant, il reste incertain si ces gains permis par les outils reflètent un raisonnement fiable. En nous concentrant sur l'outil Code Interpreter, nous montrons que même lorsque les outils sont sélectionnés et exécutés correctement, les TaLMs traitent les sorties d'outils comme des substituts au raisonnement, produisant des solutions qui semblent correctes mais manquent de justification cohérente. Nous nommons ce mode d'échec Myopie Induite par les Outils (TIM), et l'étudions à l'aide de PYMATH, un benchmark de 1 679 problèmes mathématiques de niveau compétition pour lesquels le code Python est utile mais non suffisant. Nous développons en outre une suite d'évaluation multidimensionnelle pour quantifier la dégradation du raisonnement dans les TaLMs par rapport à leurs contreparties sans outils. Nos résultats révèlent que si les TaLMs obtiennent un gain allant jusqu'à 19,3 points de pourcentage en précision de réponse finale, leur comportement de raisonnement se détériore systématiquement (par exemple, les LLMs sans outils gagnent jusqu'à 41,5 % plus souvent dans des comparaisons par paires du processus de raisonnement). Cette dégradation s'intensifie avec l'utilisation d'outils ; plus un modèle invoque fréquemment des outils, moins son raisonnement devient cohérent. De plus, l'utilisation d'outils déplace les erreurs des fautes arithmétiques vers des échecs de raisonnement globaux (logique, hypothèse, créativité) ; avec TIM présent dans ~55 % des cas à haut risque. Enfin, nous proposons un cadre basé sur l'optimisation des préférences qui réaligne les TaLMs pour utiliser les outils comme preuves assistives, améliorant à la fois la précision des réponses finales et la profondeur du raisonnement lors de l'utilisation d'outils. Les codes et données sont disponibles à l'adresse : https://github.com/megagonlabs/TIM.

English

Tool-augmented Language Models (TaLMs) can invoke external tools to solve problems beyond their parametric capacity. However, it remains unclear whether these tool-enabled gains reflect trustworthy reasoning. Focusing on the Code Interpreter tool, we show that even when tools are selected and executed correctly, TaLMs treat tool outputs as substitutes for reasoning, producing solutions that appear correct but lack coherent justification. We term this failure mode Tool-Induced Myopia (TIM), and study it using PYMATH, a benchmark of 1,679 competition-level mathematical problems for which Python code is helpful but not sufficient. We further develop a multi-dimensional evaluation suite to quantify reasoning degradation in TaLMs relative to their non-tool counterparts. Our findings reveal that while TaLMs achieve up to a 19.3 percentage point gain in final-answer accuracy, their reasoning behavior consistently deteriorates (e.g., non-tool LLMs win up to 41.5% more often in pairwise comparisons of the reasoning process). This degradation intensifies with tool use; the more frequently a model invokes tools, the less coherent its reasoning becomes. Moreover, tool use shifts errors from arithmetic mistakes toward global reasoning failures (logic, assumption, creativity); with TIM present in ~55% of high-risk cases. Finally, we propose a preference-optimization-based framework that realigns TaLMs to use tools as assistive evidence, improving both final-answer accuracy and reasoning depth under tool use. Codes and data are available at: https://github.com/megagonlabs/TIM.

De la preuve au programme : Caractérisation des hallucinations de raisonnement induites par les outils dans les grands modèles de langage

From Proof to Program: Characterizing Tool-Induced Reasoning Hallucinations in Large Language Models

papers.abstract

Support