Diseccionando el Razonamiento Integrado en Herramientas: Un Estudio y Análisis Empírico
Dissecting Tool-Integrated Reasoning: An Empirical Study and Analysis
August 21, 2025
Autores: Yufeng Zhao, Junnan Liu, Hongwei Liu, Dongsheng Zhu, Yuan Shen, Songyang Zhang, Kai Chen
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han logrado avances significativos en tareas de razonamiento mediante métodos como el razonamiento en cadena de pensamiento (CoT, por sus siglas en inglés). Sin embargo, a menudo presentan limitaciones en tareas que requieren cálculos precisos. El Razonamiento Integrado con Herramientas (TIR, por sus siglas en inglés) ha surgido como una solución al incorporar herramientas externas en el proceso de razonamiento. No obstante, la generalización del TIR para mejorar la capacidad de razonamiento de los LLMs aún no está clara. Además, queda por estudiar si el TIR ha mejorado el comportamiento de razonamiento del modelo y ha ayudado al modelo a pensar. Presentamos ReasonZoo, un benchmark integral que abarca nueve categorías diversas de razonamiento, para evaluar la efectividad del TIR en varios dominios. Además, proponemos dos métricas novedosas, Costo Consciente del Rendimiento (PAC, por sus siglas en inglés) y Área Bajo la Curva de Rendimiento-Costo (AUC-PCC, por sus siglas en inglés), para evaluar la eficiencia del razonamiento. Nuestra evaluación empírica demuestra que los modelos habilitados con TIR superan consistentemente a sus contrapartes sin TIR tanto en tareas matemáticas como no matemáticas. Además, el TIR mejora la eficiencia del razonamiento, como lo evidencian las mejoras en PAC y AUC-PCC, lo que indica una reducción del sobrepensamiento y un razonamiento más fluido. Estos hallazgos subrayan los beneficios generales del TIR en diversos dominios y su potencial para avanzar las capacidades de los LLMs en tareas de razonamiento complejo.
English
Large Language Models (LLMs) have made significant strides in reasoning tasks
through methods like chain-of-thought (CoT) reasoning. However, they often fall
short in tasks requiring precise computations. Tool-Integrated Reasoning (TIR)
has emerged as a solution by incorporating external tools into the reasoning
process. Nevertheless, the generalization of TIR in improving the reasoning
ability of LLM is still unclear. Additionally, whether TIR has improved the
model's reasoning behavior and helped the model think remains to be studied. We
introduce ReasonZoo, a comprehensive benchmark encompassing nine diverse
reasoning categories, to evaluate the effectiveness of TIR across various
domains. Additionally, we propose two novel metrics, Performance-Aware Cost
(PAC) and Area Under the Performance-Cost Curve (AUC-PCC), to assess reasoning
efficiency. Our empirical evaluation demonstrates that TIR-enabled models
consistently outperform their non-TIR counterparts in both mathematical and
non-mathematical tasks. Furthermore, TIR enhances reasoning efficiency, as
evidenced by improved PAC and AUC-PCC, indicating reduced overthinking and more
streamlined reasoning. These findings underscore the domain-general benefits of
TIR and its potential to advance LLM capabilities in complex reasoning tasks.