CRITICTOOL: Оценка способности крупных языковых моделей к самокритике в сценариях ошибок при вызове инструментов
CRITICTOOL: Evaluating Self-Critique Capabilities of Large Language Models in Tool-Calling Error Scenarios
June 11, 2025
Авторы: Shiting Huang, Zhen Fang, Zehui Chen, Siyu Yuan, Junjie Ye, Yu Zeng, Lin Chen, Qi Mao, Feng Zhao
cs.AI
Аннотация
Способность крупных языковых моделей (LLM) использовать внешние инструменты позволяет им решать всё более разнообразные задачи. Однако по мере усложнения задач и увеличения их временного горизонта сложный процесс использования инструментов может вызывать различные непредвиденные ошибки. Поэтому эффективное управление такими ошибками, включая их выявление, диагностику и восстановление, стало ключевым направлением исследований для развития обучения с использованием инструментов. В данной работе мы сначала подробно анализируем типы ошибок, возникающих в процессе вызова функций, на нескольких конкурентоспособных бенчмарках для оценки инструментов. На основе этого мы представляем CRITICTOOL — комплексный бенчмарк для критической оценки, специализированный для обучения с использованием инструментов. Используя новую эволюционную стратегию для создания набора данных, CRITICTOOL включает разнообразные ошибки использования инструментов с различной степенью сложности, что лучше отражает реальные сценарии. Мы проводим обширные эксперименты на CRITICTOOL и подтверждаем обобщаемость и эффективность нашей стратегии построения бенчмарка. Также мы предоставляем глубокий анализ способности к рефлексии при использовании инструментов в различных LLM, предлагая новый взгляд на область обучения с использованием инструментов в крупных языковых моделях. Код доступен по адресу https://github.com/Shellorley0513/CriticTool{https://github.com/Shellorley0513/CriticTool}.
English
The ability of large language models (LLMs) to utilize external tools has
enabled them to tackle an increasingly diverse range of tasks. However, as the
tasks become more complex and long-horizon, the intricate tool utilization
process may trigger various unexpected errors. Therefore, how to effectively
handle such errors, including identifying, diagnosing, and recovering from
them, has emerged as a key research direction for advancing tool learning. In
this work, we first extensively analyze the types of errors encountered during
the function-calling process on several competitive tool evaluation benchmarks.
Based on it, we introduce CRITICTOOL, a comprehensive critique evaluation
benchmark specialized for tool learning. Building upon a novel evolutionary
strategy for dataset construction, CRITICTOOL holds diverse tool-use errors
with varying complexities, which better reflects real-world scenarios. We
conduct extensive experiments on CRITICTOOL, and validate the generalization
and effectiveness of our constructed benchmark strategy. We also provide an
in-depth analysis of the tool reflection ability on various LLMs, offering a
new perspective on the field of tool learning in LLMs. The code is available at
https://github.com/Shellorley0513/CriticTool{https://github.com/Shellorley0513/CriticTool}.