ChatPaper.aiChatPaper

Dissecando o Raciocínio Integrado a Ferramentas: Um Estudo e Análise Empírica

Dissecting Tool-Integrated Reasoning: An Empirical Study and Analysis

August 21, 2025
Autores: Yufeng Zhao, Junnan Liu, Hongwei Liu, Dongsheng Zhu, Yuan Shen, Songyang Zhang, Kai Chen
cs.AI

Resumo

Modelos de Linguagem de Grande Escala (LLMs) têm feito avanços significativos em tarefas de raciocínio por meio de métodos como o raciocínio em cadeia de pensamento (chain-of-thought, CoT). No entanto, eles frequentemente apresentam deficiências em tarefas que exigem cálculos precisos. O Raciocínio Integrado com Ferramentas (Tool-Integrated Reasoning, TIR) surgiu como uma solução ao incorporar ferramentas externas ao processo de raciocínio. No entanto, a generalização do TIR na melhoria da capacidade de raciocínio dos LLMs ainda não é clara. Além disso, se o TIR melhorou o comportamento de raciocínio do modelo e ajudou o modelo a pensar ainda precisa ser estudado. Apresentamos o ReasonZoo, um benchmark abrangente que engloba nove categorias diversas de raciocínio, para avaliar a eficácia do TIR em vários domínios. Além disso, propomos duas novas métricas, Custo Consciente de Desempenho (Performance-Aware Cost, PAC) e Área Sob a Curva de Desempenho-Custo (Area Under the Performance-Cost Curve, AUC-PCC), para avaliar a eficiência do raciocínio. Nossa avaliação empírica demonstra que modelos habilitados com TIR consistentemente superam suas contrapartes sem TIR tanto em tarefas matemáticas quanto não matemáticas. Além disso, o TIR melhora a eficiência do raciocínio, como evidenciado pela melhoria no PAC e AUC-PCC, indicando redução de pensamento excessivo e raciocínio mais direcionado. Esses achados destacam os benefícios de domínio geral do TIR e seu potencial para avançar as capacidades dos LLMs em tarefas complexas de raciocínio.
English
Large Language Models (LLMs) have made significant strides in reasoning tasks through methods like chain-of-thought (CoT) reasoning. However, they often fall short in tasks requiring precise computations. Tool-Integrated Reasoning (TIR) has emerged as a solution by incorporating external tools into the reasoning process. Nevertheless, the generalization of TIR in improving the reasoning ability of LLM is still unclear. Additionally, whether TIR has improved the model's reasoning behavior and helped the model think remains to be studied. We introduce ReasonZoo, a comprehensive benchmark encompassing nine diverse reasoning categories, to evaluate the effectiveness of TIR across various domains. Additionally, we propose two novel metrics, Performance-Aware Cost (PAC) and Area Under the Performance-Cost Curve (AUC-PCC), to assess reasoning efficiency. Our empirical evaluation demonstrates that TIR-enabled models consistently outperform their non-TIR counterparts in both mathematical and non-mathematical tasks. Furthermore, TIR enhances reasoning efficiency, as evidenced by improved PAC and AUC-PCC, indicating reduced overthinking and more streamlined reasoning. These findings underscore the domain-general benefits of TIR and its potential to advance LLM capabilities in complex reasoning tasks.
PDF42August 22, 2025