Dalla dimostrazione al programma: caratterizzazione delle allucinazioni di ragionamento indotte dagli strumenti nei grandi modelli linguistici

Abstract

I modelli linguistici potenziati da strumenti (TaLMs) possono richiamare strumenti esterni per risolvere problemi oltre la loro capacità parametrica. Tuttavia, non è chiaro se questi vantaggi abilitati dagli strumenti riflettano un ragionamento affidabile. Concentrandoci sullo strumento Code Interpreter, dimostriamo che anche quando gli strumenti sono selezionati ed eseguiti correttamente, i TaLMs trattano gli output degli strumenti come sostituti del ragionamento, producendo soluzioni che appaiono corrette ma mancano di una giustificazione coerente. Definiamo questa modalità di fallimento Miopia Indotta da Strumenti (TIM), e la studiamo utilizzando PYMATH, un benchmark di 1.679 problemi matematici di livello competitivo per i quali il codice Python è utile ma non sufficiente. Sviluppiamo inoltre una suite di valutazione multidimensionale per quantificare il degrado del ragionamento nei TaLMs rispetto alle loro controparti senza strumenti. I nostri risultati rivelano che, sebbene i TaLMs raggiungano un guadagno fino a 19,3 punti percentuali nell'accuratezza della risposta finale, il loro comportamento di ragionamento si deteriora costantemente (ad esempio, gli LLM senza strumenti vincono fino al 41,5% più spesso nei confronti a coppie del processo di ragionamento). Questo degrado si intensifica con l'uso degli strumenti; più frequentemente un modello richiama gli strumenti, meno coerente diventa il suo ragionamento. Inoltre, l'uso degli strumenti sposta gli errori dagli errori aritmetici verso fallimenti di ragionamento globale (logica, assunzioni, creatività); con TIM presente in circa il 55% dei casi ad alto rischio. Infine, proponiamo un framework basato sull'ottimizzazione delle preferenze che riallinea i TaLMs per utilizzare gli strumenti come prove di supporto, migliorando sia l'accuratezza della risposta finale che la profondità di ragionamento con l'uso degli strumenti. I codici e i dati sono disponibili all'indirizzo: https://github.com/megagonlabs/TIM.

English

Tool-augmented Language Models (TaLMs) can invoke external tools to solve problems beyond their parametric capacity. However, it remains unclear whether these tool-enabled gains reflect trustworthy reasoning. Focusing on the Code Interpreter tool, we show that even when tools are selected and executed correctly, TaLMs treat tool outputs as substitutes for reasoning, producing solutions that appear correct but lack coherent justification. We term this failure mode Tool-Induced Myopia (TIM), and study it using PYMATH, a benchmark of 1,679 competition-level mathematical problems for which Python code is helpful but not sufficient. We further develop a multi-dimensional evaluation suite to quantify reasoning degradation in TaLMs relative to their non-tool counterparts. Our findings reveal that while TaLMs achieve up to a 19.3 percentage point gain in final-answer accuracy, their reasoning behavior consistently deteriorates (e.g., non-tool LLMs win up to 41.5% more often in pairwise comparisons of the reasoning process). This degradation intensifies with tool use; the more frequently a model invokes tools, the less coherent its reasoning becomes. Moreover, tool use shifts errors from arithmetic mistakes toward global reasoning failures (logic, assumption, creativity); with TIM present in ~55% of high-risk cases. Finally, we propose a preference-optimization-based framework that realigns TaLMs to use tools as assistive evidence, improving both final-answer accuracy and reasoning depth under tool use. Codes and data are available at: https://github.com/megagonlabs/TIM.

Dalla dimostrazione al programma: caratterizzazione delle allucinazioni di ragionamento indotte dagli strumenti nei grandi modelli linguistici

From Proof to Program: Characterizing Tool-Induced Reasoning Hallucinations in Large Language Models

Abstract

Support