Del Prueba al Programa: Caracterización de Alucinaciones de Razonamiento Inducidas por Herramientas en Modelos de Lenguaje Grande

Resumen

Los Modelos de Lenguaje Aumentados con Herramientas (TaLMs, por sus siglas en inglés) pueden invocar herramientas externas para resolver problemas que exceden su capacidad paramétrica. Sin embargo, aún no está claro si estas mejoras habilitadas por herramientas reflejan un razonamiento confiable. Centrándonos en la herramienta Code Interpreter, demostramos que incluso cuando las herramientas se seleccionan y ejecutan correctamente, los TaLMs tratan las salidas de las herramientas como sustitutos del razonamiento, produciendo soluciones que parecen correctas pero carecen de una justificación coherente. Denominamos a este modo de fallo **Miopía Inducida por Herramientas (TIM)**, y lo estudiamos utilizando PYMATH, un benchmark de 1.679 problemas matemáticos de nivel competitivo para los cuales el código Python es útil pero no suficiente. Además, desarrollamos una suite de evaluación multidimensional para cuantificar la degradación del razonamiento en los TaLMs en comparación con sus contrapartes sin herramientas. Nuestros hallazgos revelan que, si bien los TaLMs logran una mejora de hasta 19.3 puntos porcentuales en la precisión de la respuesta final, su comportamiento de razonamiento se deteriora consistentemente (por ejemplo, los LLMs sin herramientas ganan hasta un 41.5% más a menudo en comparaciones por pares del proceso de razonamiento). Esta degradación se intensifica con el uso de herramientas; cuanto más frecuentemente un modelo invoca herramientas, menos coherente se vuelve su razonamiento. Además, el uso de herramientas desplaza los errores desde equivocaciones aritméticas hacia fallos de razonamiento global (lógica, suposiciones, creatividad); estando TIM presente en aproximadamente el 55% de los casos de alto riesgo. Finalmente, proponemos un marco basado en optimización de preferencias que realinea a los TaLMs para usar las herramientas como evidencia de apoyo, mejorando tanto la precisión de la respuesta final como la profundidad del razonamiento bajo el uso de herramientas. Los códigos y datos están disponibles en: https://github.com/megagonlabs/TIM.

English

Tool-augmented Language Models (TaLMs) can invoke external tools to solve problems beyond their parametric capacity. However, it remains unclear whether these tool-enabled gains reflect trustworthy reasoning. Focusing on the Code Interpreter tool, we show that even when tools are selected and executed correctly, TaLMs treat tool outputs as substitutes for reasoning, producing solutions that appear correct but lack coherent justification. We term this failure mode Tool-Induced Myopia (TIM), and study it using PYMATH, a benchmark of 1,679 competition-level mathematical problems for which Python code is helpful but not sufficient. We further develop a multi-dimensional evaluation suite to quantify reasoning degradation in TaLMs relative to their non-tool counterparts. Our findings reveal that while TaLMs achieve up to a 19.3 percentage point gain in final-answer accuracy, their reasoning behavior consistently deteriorates (e.g., non-tool LLMs win up to 41.5% more often in pairwise comparisons of the reasoning process). This degradation intensifies with tool use; the more frequently a model invokes tools, the less coherent its reasoning becomes. Moreover, tool use shifts errors from arithmetic mistakes toward global reasoning failures (logic, assumption, creativity); with TIM present in ~55% of high-risk cases. Finally, we propose a preference-optimization-based framework that realigns TaLMs to use tools as assistive evidence, improving both final-answer accuracy and reasoning depth under tool use. Codes and data are available at: https://github.com/megagonlabs/TIM.

Del Prueba al Programa: Caracterización de Alucinaciones de Razonamiento Inducidas por Herramientas en Modelos de Lenguaje Grande

From Proof to Program: Characterizing Tool-Induced Reasoning Hallucinations in Large Language Models

Resumen

Support