ChatPaper.aiChatPaper

Analyse des werkzeugintegrierten Denkens: Eine empirische Studie und Auswertung

Dissecting Tool-Integrated Reasoning: An Empirical Study and Analysis

August 21, 2025
papers.authors: Yufeng Zhao, Junnan Liu, Hongwei Liu, Dongsheng Zhu, Yuan Shen, Songyang Zhang, Kai Chen
cs.AI

papers.abstract

Große Sprachmodelle (LLMs) haben bedeutende Fortschritte bei Denkaufgaben durch Methoden wie die Ketten-Denkweise (Chain-of-Thought, CoT) erzielt. Allerdings zeigen sie oft Schwächen bei Aufgaben, die präzise Berechnungen erfordern. Tool-Integriertes Denken (Tool-Integrated Reasoning, TIR) hat sich als Lösung etabliert, indem externe Werkzeuge in den Denkprozess integriert werden. Dennoch ist die Verallgemeinerung von TIR zur Verbesserung der Denkfähigkeit von LLMs noch unklar. Zudem bleibt zu untersuchen, ob TIR das Denkverhalten des Modells verbessert und ihm geholfen hat, besser zu denken. Wir stellen ReasonZoo vor, einen umfassenden Benchmark, der neun verschiedene Denkkategorien umfasst, um die Wirksamkeit von TIR in verschiedenen Domänen zu bewerten. Zusätzlich schlagen wir zwei neue Metriken vor, Performance-Aware Cost (PAC) und Area Under the Performance-Cost Curve (AUC-PCC), um die Denkeffizienz zu bewerten. Unsere empirische Auswertung zeigt, dass TIR-fähige Modelle durchweg besser abschneiden als ihre nicht-TIR-Pendants, sowohl bei mathematischen als auch bei nicht-mathematischen Aufgaben. Darüber hinaus verbessert TIR die Denkeffizienz, was durch verbesserte PAC- und AUC-PCC-Werte belegt wird, die auf reduziertes Überdenken und einen effizienteren Denkprozess hinweisen. Diese Ergebnisse unterstreichen die domänenübergreifenden Vorteile von TIR und sein Potenzial, die Fähigkeiten von LLMs bei komplexen Denkaufgaben weiter voranzutreiben.
English
Large Language Models (LLMs) have made significant strides in reasoning tasks through methods like chain-of-thought (CoT) reasoning. However, they often fall short in tasks requiring precise computations. Tool-Integrated Reasoning (TIR) has emerged as a solution by incorporating external tools into the reasoning process. Nevertheless, the generalization of TIR in improving the reasoning ability of LLM is still unclear. Additionally, whether TIR has improved the model's reasoning behavior and helped the model think remains to be studied. We introduce ReasonZoo, a comprehensive benchmark encompassing nine diverse reasoning categories, to evaluate the effectiveness of TIR across various domains. Additionally, we propose two novel metrics, Performance-Aware Cost (PAC) and Area Under the Performance-Cost Curve (AUC-PCC), to assess reasoning efficiency. Our empirical evaluation demonstrates that TIR-enabled models consistently outperform their non-TIR counterparts in both mathematical and non-mathematical tasks. Furthermore, TIR enhances reasoning efficiency, as evidenced by improved PAC and AUC-PCC, indicating reduced overthinking and more streamlined reasoning. These findings underscore the domain-general benefits of TIR and its potential to advance LLM capabilities in complex reasoning tasks.
PDF32August 22, 2025