ChatPaper.aiChatPaper

CRITICTOOL: Avaliação das Capacidades de Autocrítica em Modelos de Linguagem de Grande Escala em Cenários de Erro na Chamada de Ferramentas

CRITICTOOL: Evaluating Self-Critique Capabilities of Large Language Models in Tool-Calling Error Scenarios

June 11, 2025
Autores: Shiting Huang, Zhen Fang, Zehui Chen, Siyu Yuan, Junjie Ye, Yu Zeng, Lin Chen, Qi Mao, Feng Zhao
cs.AI

Resumo

A capacidade dos grandes modelos de linguagem (LLMs) de utilizar ferramentas externas tem permitido que eles abordem uma gama cada vez mais diversificada de tarefas. No entanto, à medida que as tarefas se tornam mais complexas e de longo prazo, o intrincado processo de utilização de ferramentas pode desencadear diversos erros inesperados. Portanto, como lidar efetivamente com esses erros, incluindo identificá-los, diagnosticá-los e recuperar-se deles, tornou-se uma direção de pesquisa fundamental para o avanço do aprendizado de ferramentas. Neste trabalho, primeiro analisamos extensivamente os tipos de erros encontrados durante o processo de chamada de função em vários benchmarks competitivos de avaliação de ferramentas. Com base nisso, introduzimos o CRITICTOOL, um benchmark abrangente de avaliação crítica especializado para o aprendizado de ferramentas. Construído sobre uma nova estratégia evolutiva para a construção de conjuntos de dados, o CRITICTOOL contém diversos erros de uso de ferramentas com variadas complexidades, o que reflete melhor cenários do mundo real. Realizamos experimentos extensivos no CRITICTOOL e validamos a generalização e eficácia da nossa estratégia de construção de benchmark. Também fornecemos uma análise aprofundada da capacidade de reflexão sobre ferramentas em vários LLMs, oferecendo uma nova perspectiva no campo do aprendizado de ferramentas em LLMs. O código está disponível em https://github.com/Shellorley0513/CriticTool{https://github.com/Shellorley0513/CriticTool}.
English
The ability of large language models (LLMs) to utilize external tools has enabled them to tackle an increasingly diverse range of tasks. However, as the tasks become more complex and long-horizon, the intricate tool utilization process may trigger various unexpected errors. Therefore, how to effectively handle such errors, including identifying, diagnosing, and recovering from them, has emerged as a key research direction for advancing tool learning. In this work, we first extensively analyze the types of errors encountered during the function-calling process on several competitive tool evaluation benchmarks. Based on it, we introduce CRITICTOOL, a comprehensive critique evaluation benchmark specialized for tool learning. Building upon a novel evolutionary strategy for dataset construction, CRITICTOOL holds diverse tool-use errors with varying complexities, which better reflects real-world scenarios. We conduct extensive experiments on CRITICTOOL, and validate the generalization and effectiveness of our constructed benchmark strategy. We also provide an in-depth analysis of the tool reflection ability on various LLMs, offering a new perspective on the field of tool learning in LLMs. The code is available at https://github.com/Shellorley0513/CriticTool{https://github.com/Shellorley0513/CriticTool}.
PDF102June 18, 2025