Analisi Empirica e Studio del Ragionamento Integrato negli Strumenti
Dissecting Tool-Integrated Reasoning: An Empirical Study and Analysis
August 21, 2025
Autori: Yufeng Zhao, Junnan Liu, Hongwei Liu, Dongsheng Zhu, Yuan Shen, Songyang Zhang, Kai Chen
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) hanno compiuto progressi significativi nei compiti di ragionamento attraverso metodi come il ragionamento a catena di pensiero (CoT). Tuttavia, spesso non riescono a svolgere compiti che richiedono calcoli precisi. Il Ragionamento Integrato con Strumenti (TIR) è emerso come soluzione, incorporando strumenti esterni nel processo di ragionamento. Tuttavia, la generalizzazione del TIR nel migliorare le capacità di ragionamento degli LLM rimane poco chiara. Inoltre, resta da studiare se il TIR abbia migliorato il comportamento di ragionamento del modello e abbia aiutato il modello a pensare. Introduciamo ReasonZoo, un benchmark completo che comprende nove categorie di ragionamento diverse, per valutare l'efficacia del TIR in vari domini. Inoltre, proponiamo due nuove metriche, il Costo Consapevole della Prestazione (PAC) e l'Area Sotto la Curva Prestazione-Costo (AUC-PCC), per valutare l'efficienza del ragionamento. La nostra valutazione empirica dimostra che i modelli abilitati al TIR superano costantemente le loro controparti non-TIR sia nei compiti matematici che non matematici. Inoltre, il TIR migliora l'efficienza del ragionamento, come evidenziato dai miglioramenti in PAC e AUC-PCC, indicando una riduzione del sovrapensiero e un ragionamento più snello. Questi risultati sottolineano i benefici generali del TIR e il suo potenziale per avanzare le capacità degli LLM nei compiti di ragionamento complesso.
English
Large Language Models (LLMs) have made significant strides in reasoning tasks
through methods like chain-of-thought (CoT) reasoning. However, they often fall
short in tasks requiring precise computations. Tool-Integrated Reasoning (TIR)
has emerged as a solution by incorporating external tools into the reasoning
process. Nevertheless, the generalization of TIR in improving the reasoning
ability of LLM is still unclear. Additionally, whether TIR has improved the
model's reasoning behavior and helped the model think remains to be studied. We
introduce ReasonZoo, a comprehensive benchmark encompassing nine diverse
reasoning categories, to evaluate the effectiveness of TIR across various
domains. Additionally, we propose two novel metrics, Performance-Aware Cost
(PAC) and Area Under the Performance-Cost Curve (AUC-PCC), to assess reasoning
efficiency. Our empirical evaluation demonstrates that TIR-enabled models
consistently outperform their non-TIR counterparts in both mathematical and
non-mathematical tasks. Furthermore, TIR enhances reasoning efficiency, as
evidenced by improved PAC and AUC-PCC, indicating reduced overthinking and more
streamlined reasoning. These findings underscore the domain-general benefits of
TIR and its potential to advance LLM capabilities in complex reasoning tasks.