ChatPaper.aiChatPaper

CRITICTOOL : Évaluation des capacités d'autocritique des grands modèles de langage dans des scénarios d'erreurs d'appel d'outils

CRITICTOOL: Evaluating Self-Critique Capabilities of Large Language Models in Tool-Calling Error Scenarios

June 11, 2025
Auteurs: Shiting Huang, Zhen Fang, Zehui Chen, Siyu Yuan, Junjie Ye, Yu Zeng, Lin Chen, Qi Mao, Feng Zhao
cs.AI

Résumé

La capacité des grands modèles de langage (LLMs) à utiliser des outils externes leur a permis de s’attaquer à une gamme de tâches de plus en plus diversifiée. Cependant, à mesure que les tâches deviennent plus complexes et de long terme, le processus complexe d’utilisation des outils peut déclencher diverses erreurs inattendues. Par conséquent, la manière de gérer efficacement ces erreurs, y compris leur identification, leur diagnostic et leur récupération, est devenue une direction de recherche clé pour faire progresser l’apprentissage des outils. Dans ce travail, nous analysons d’abord de manière approfondie les types d’erreurs rencontrées lors du processus d’appel de fonction sur plusieurs benchmarks compétitifs d’évaluation d’outils. Sur cette base, nous introduisons CRITICTOOL, un benchmark d’évaluation critique complet spécialisé pour l’apprentissage des outils. S’appuyant sur une nouvelle stratégie évolutive de construction de jeux de données, CRITICTOOL intègre des erreurs d’utilisation d’outils de complexités variées, reflétant mieux les scénarios réels. Nous menons des expériences approfondies sur CRITICTOOL et validons la généralisation et l’efficacité de notre stratégie de benchmark. Nous fournissons également une analyse approfondie de la capacité de réflexion des outils sur divers LLMs, offrant une nouvelle perspective dans le domaine de l’apprentissage des outils pour les LLMs. Le code est disponible à l’adresse suivante : https://github.com/Shellorley0513/CriticTool{https://github.com/Shellorley0513/CriticTool}.
English
The ability of large language models (LLMs) to utilize external tools has enabled them to tackle an increasingly diverse range of tasks. However, as the tasks become more complex and long-horizon, the intricate tool utilization process may trigger various unexpected errors. Therefore, how to effectively handle such errors, including identifying, diagnosing, and recovering from them, has emerged as a key research direction for advancing tool learning. In this work, we first extensively analyze the types of errors encountered during the function-calling process on several competitive tool evaluation benchmarks. Based on it, we introduce CRITICTOOL, a comprehensive critique evaluation benchmark specialized for tool learning. Building upon a novel evolutionary strategy for dataset construction, CRITICTOOL holds diverse tool-use errors with varying complexities, which better reflects real-world scenarios. We conduct extensive experiments on CRITICTOOL, and validate the generalization and effectiveness of our constructed benchmark strategy. We also provide an in-depth analysis of the tool reflection ability on various LLMs, offering a new perspective on the field of tool learning in LLMs. The code is available at https://github.com/Shellorley0513/CriticTool{https://github.com/Shellorley0513/CriticTool}.
PDF82June 18, 2025