Анализ интегрированного инструментами рассуждения: эмпирическое исследование и анализ
Dissecting Tool-Integrated Reasoning: An Empirical Study and Analysis
August 21, 2025
Авторы: Yufeng Zhao, Junnan Liu, Hongwei Liu, Dongsheng Zhu, Yuan Shen, Songyang Zhang, Kai Chen
cs.AI
Аннотация
Крупные языковые модели (LLM) достигли значительных успехов в задачах, требующих рассуждений, благодаря методам, таким как цепочка рассуждений (CoT). Однако они часто оказываются недостаточно эффективными в задачах, требующих точных вычислений. Интеграция инструментов в процесс рассуждений (Tool-Integrated Reasoning, TIR) появилась как решение, позволяющее использовать внешние инструменты для улучшения рассуждений. Тем не менее, степень обобщения TIR в улучшении способности LLM к рассуждениям остается неясной. Кроме того, вопрос о том, улучшила ли TIR поведение модели в рассуждениях и помогла ли модели "мыслить", требует дальнейшего изучения. Мы представляем ReasonZoo — комплексный бенчмарк, охватывающий девять разнообразных категорий рассуждений, для оценки эффективности TIR в различных областях. Также мы предлагаем две новые метрики: Cost-Aware Performance (CAP) и Area Under the Performance-Cost Curve (AUC-PCC), чтобы оценить эффективность рассуждений. Наше эмпирическое исследование показывает, что модели с поддержкой TIR стабильно превосходят модели без TIR как в математических, так и в нематематических задачах. Более того, TIR повышает эффективность рассуждений, что подтверждается улучшенными значениями CAP и AUC-PCC, указывающими на снижение избыточного анализа и более структурированные рассуждения. Эти результаты подчеркивают универсальные преимущества TIR и её потенциал для развития возможностей LLM в сложных задачах, требующих рассуждений.
English
Large Language Models (LLMs) have made significant strides in reasoning tasks
through methods like chain-of-thought (CoT) reasoning. However, they often fall
short in tasks requiring precise computations. Tool-Integrated Reasoning (TIR)
has emerged as a solution by incorporating external tools into the reasoning
process. Nevertheless, the generalization of TIR in improving the reasoning
ability of LLM is still unclear. Additionally, whether TIR has improved the
model's reasoning behavior and helped the model think remains to be studied. We
introduce ReasonZoo, a comprehensive benchmark encompassing nine diverse
reasoning categories, to evaluate the effectiveness of TIR across various
domains. Additionally, we propose two novel metrics, Performance-Aware Cost
(PAC) and Area Under the Performance-Cost Curve (AUC-PCC), to assess reasoning
efficiency. Our empirical evaluation demonstrates that TIR-enabled models
consistently outperform their non-TIR counterparts in both mathematical and
non-mathematical tasks. Furthermore, TIR enhances reasoning efficiency, as
evidenced by improved PAC and AUC-PCC, indicating reduced overthinking and more
streamlined reasoning. These findings underscore the domain-general benefits of
TIR and its potential to advance LLM capabilities in complex reasoning tasks.