ChatPaper.aiChatPaper

Analyse empirique et étude approfondie du raisonnement intégré aux outils

Dissecting Tool-Integrated Reasoning: An Empirical Study and Analysis

August 21, 2025
papers.authors: Yufeng Zhao, Junnan Liu, Hongwei Liu, Dongsheng Zhu, Yuan Shen, Songyang Zhang, Kai Chen
cs.AI

papers.abstract

Les grands modèles de langage (LLM) ont réalisé des progrès significatifs dans les tâches de raisonnement grâce à des méthodes comme le raisonnement en chaîne de pensées (CoT). Cependant, ils peinent souvent dans les tâches nécessitant des calculs précis. Le raisonnement intégrant des outils (TIR) est apparu comme une solution en incorporant des outils externes dans le processus de raisonnement. Néanmoins, la généralisation du TIR pour améliorer les capacités de raisonnement des LLM reste incertaine. De plus, il reste à étudier si le TIR a amélioré le comportement de raisonnement du modèle et l'a aidé à penser. Nous présentons ReasonZoo, un benchmark complet englobant neuf catégories de raisonnement diverses, pour évaluer l'efficacité du TIR dans différents domaines. Nous proposons également deux nouvelles métriques, le coût conscient de la performance (PAC) et l'aire sous la courbe performance-coût (AUC-PCC), pour évaluer l'efficacité du raisonnement. Notre évaluation empirique démontre que les modèles activés par le TIR surpassent systématiquement leurs homologues non-TIR dans les tâches mathématiques et non mathématiques. De plus, le TIR améliore l'efficacité du raisonnement, comme en témoignent les améliorations du PAC et de l'AUC-PCC, indiquant une réduction de la surréflexion et un raisonnement plus fluide. Ces résultats soulignent les avantages généraux du TIR et son potentiel pour faire progresser les capacités des LLM dans les tâches de raisonnement complexes.
English
Large Language Models (LLMs) have made significant strides in reasoning tasks through methods like chain-of-thought (CoT) reasoning. However, they often fall short in tasks requiring precise computations. Tool-Integrated Reasoning (TIR) has emerged as a solution by incorporating external tools into the reasoning process. Nevertheless, the generalization of TIR in improving the reasoning ability of LLM is still unclear. Additionally, whether TIR has improved the model's reasoning behavior and helped the model think remains to be studied. We introduce ReasonZoo, a comprehensive benchmark encompassing nine diverse reasoning categories, to evaluate the effectiveness of TIR across various domains. Additionally, we propose two novel metrics, Performance-Aware Cost (PAC) and Area Under the Performance-Cost Curve (AUC-PCC), to assess reasoning efficiency. Our empirical evaluation demonstrates that TIR-enabled models consistently outperform their non-TIR counterparts in both mathematical and non-mathematical tasks. Furthermore, TIR enhances reasoning efficiency, as evidenced by improved PAC and AUC-PCC, indicating reduced overthinking and more streamlined reasoning. These findings underscore the domain-general benefits of TIR and its potential to advance LLM capabilities in complex reasoning tasks.
PDF32August 22, 2025