Ontleding van Tool-geïntegreerd Redeneren: Een Empirische Studie en Analyse
Dissecting Tool-Integrated Reasoning: An Empirical Study and Analysis
August 21, 2025
Auteurs: Yufeng Zhao, Junnan Liu, Hongwei Liu, Dongsheng Zhu, Yuan Shen, Songyang Zhang, Kai Chen
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) hebben aanzienlijke vooruitgang geboekt in redeneertaken dankzij methoden zoals keten-van-gedachten (CoT) redeneren. Echter, schieten ze vaak tekort in taken die precieze berekeningen vereisen. Tool-Geïntegreerd Redeneren (TIR) is naar voren gekomen als een oplossing door externe tools te integreren in het redeneerproces. Desalniettemin is de generalisatie van TIR in het verbeteren van het redeneervermogen van LLM nog steeds onduidelijk. Bovendien moet nog worden bestudeerd of TIR het redeneergedrag van het model heeft verbeterd en het model heeft geholpen om te denken. Wij introduceren ReasonZoo, een uitgebreide benchmark die negen diverse redeneercategorieën omvat, om de effectiviteit van TIR in verschillende domeinen te evalueren. Daarnaast stellen we twee nieuwe metrieken voor, Performance-Aware Cost (PAC) en Area Under the Performance-Cost Curve (AUC-PCC), om de redeneerefficiëntie te beoordelen. Onze empirische evaluatie toont aan dat TIR-geactiveerde modellen consistent beter presteren dan hun niet-TIR tegenhangers in zowel wiskundige als niet-wiskundige taken. Bovendien verbetert TIR de redeneerefficiëntie, zoals blijkt uit verbeterde PAC en AUC-PCC, wat wijst op minder overdenken en meer gestroomlijnd redeneren. Deze bevindingen onderstrepen de domein-generieke voordelen van TIR en het potentieel om de mogelijkheden van LLM in complexe redeneertaken te bevorderen.
English
Large Language Models (LLMs) have made significant strides in reasoning tasks
through methods like chain-of-thought (CoT) reasoning. However, they often fall
short in tasks requiring precise computations. Tool-Integrated Reasoning (TIR)
has emerged as a solution by incorporating external tools into the reasoning
process. Nevertheless, the generalization of TIR in improving the reasoning
ability of LLM is still unclear. Additionally, whether TIR has improved the
model's reasoning behavior and helped the model think remains to be studied. We
introduce ReasonZoo, a comprehensive benchmark encompassing nine diverse
reasoning categories, to evaluate the effectiveness of TIR across various
domains. Additionally, we propose two novel metrics, Performance-Aware Cost
(PAC) and Area Under the Performance-Cost Curve (AUC-PCC), to assess reasoning
efficiency. Our empirical evaluation demonstrates that TIR-enabled models
consistently outperform their non-TIR counterparts in both mathematical and
non-mathematical tasks. Furthermore, TIR enhances reasoning efficiency, as
evidenced by improved PAC and AUC-PCC, indicating reduced overthinking and more
streamlined reasoning. These findings underscore the domain-general benefits of
TIR and its potential to advance LLM capabilities in complex reasoning tasks.