ツール統合型推論の解明:実証的研究と分析
Dissecting Tool-Integrated Reasoning: An Empirical Study and Analysis
August 21, 2025
著者: Yufeng Zhao, Junnan Liu, Hongwei Liu, Dongsheng Zhu, Yuan Shen, Songyang Zhang, Kai Chen
cs.AI
要旨
大規模言語モデル(LLM)は、連鎖的思考(CoT)推論などの手法を通じて、推論タスクにおいて大きな進歩を遂げてきました。しかし、正確な計算を必要とするタスクではしばしば不十分な結果を示します。ツール統合型推論(TIR)は、外部ツールを推論プロセスに組み込むことでこの問題に対処する解決策として登場しました。しかし、TIRがLLMの推論能力を向上させる際の汎用性についてはまだ明らかではありません。さらに、TIRがモデルの推論行動を改善し、モデルが思考するのを助けたかどうかも研究の余地があります。本研究では、TIRの効果をさまざまな領域で評価するために、9つの多様な推論カテゴリを網羅した包括的なベンチマーク「ReasonZoo」を導入します。さらに、推論効率を評価するための2つの新しい指標、パフォーマンス認識コスト(PAC)とパフォーマンスコスト曲線下面積(AUC-PCC)を提案します。我々の実証評価では、TIRを有効にしたモデルが、数学的および非数学的タスクの両方において、TIRを有効にしていないモデルを一貫して上回ることが示されました。さらに、TIRは推論効率を向上させ、PACとAUC-PCCの改善によって、過剰思考の減少とより効率的な推論が実現されていることが明らかになりました。これらの発見は、TIRの領域横断的な利点と、複雑な推論タスクにおけるLLMの能力を進化させる可能性を強調しています。
English
Large Language Models (LLMs) have made significant strides in reasoning tasks
through methods like chain-of-thought (CoT) reasoning. However, they often fall
short in tasks requiring precise computations. Tool-Integrated Reasoning (TIR)
has emerged as a solution by incorporating external tools into the reasoning
process. Nevertheless, the generalization of TIR in improving the reasoning
ability of LLM is still unclear. Additionally, whether TIR has improved the
model's reasoning behavior and helped the model think remains to be studied. We
introduce ReasonZoo, a comprehensive benchmark encompassing nine diverse
reasoning categories, to evaluate the effectiveness of TIR across various
domains. Additionally, we propose two novel metrics, Performance-Aware Cost
(PAC) and Area Under the Performance-Cost Curve (AUC-PCC), to assess reasoning
efficiency. Our empirical evaluation demonstrates that TIR-enabled models
consistently outperform their non-TIR counterparts in both mathematical and
non-mathematical tasks. Furthermore, TIR enhances reasoning efficiency, as
evidenced by improved PAC and AUC-PCC, indicating reduced overthinking and more
streamlined reasoning. These findings underscore the domain-general benefits of
TIR and its potential to advance LLM capabilities in complex reasoning tasks.