CRITICTOOL : Évaluation des capacités d'autocritique des grands modèles de langage dans des scénarios d'erreurs d'appel d'outils
CRITICTOOL: Evaluating Self-Critique Capabilities of Large Language Models in Tool-Calling Error Scenarios
June 11, 2025
Auteurs: Shiting Huang, Zhen Fang, Zehui Chen, Siyu Yuan, Junjie Ye, Yu Zeng, Lin Chen, Qi Mao, Feng Zhao
cs.AI
Résumé
La capacité des grands modèles de langage (LLMs) à utiliser des outils externes leur a permis de s’attaquer à une gamme de tâches de plus en plus diversifiée. Cependant, à mesure que les tâches deviennent plus complexes et de long terme, le processus complexe d’utilisation des outils peut déclencher diverses erreurs inattendues. Par conséquent, la manière de gérer efficacement ces erreurs, y compris leur identification, leur diagnostic et leur récupération, est devenue une direction de recherche clé pour faire progresser l’apprentissage des outils. Dans ce travail, nous analysons d’abord de manière approfondie les types d’erreurs rencontrées lors du processus d’appel de fonction sur plusieurs benchmarks compétitifs d’évaluation d’outils. Sur cette base, nous introduisons CRITICTOOL, un benchmark d’évaluation critique complet spécialisé pour l’apprentissage des outils. S’appuyant sur une nouvelle stratégie évolutive de construction de jeux de données, CRITICTOOL intègre des erreurs d’utilisation d’outils de complexités variées, reflétant mieux les scénarios réels. Nous menons des expériences approfondies sur CRITICTOOL et validons la généralisation et l’efficacité de notre stratégie de benchmark. Nous fournissons également une analyse approfondie de la capacité de réflexion des outils sur divers LLMs, offrant une nouvelle perspective dans le domaine de l’apprentissage des outils pour les LLMs. Le code est disponible à l’adresse suivante : https://github.com/Shellorley0513/CriticTool{https://github.com/Shellorley0513/CriticTool}.
English
The ability of large language models (LLMs) to utilize external tools has
enabled them to tackle an increasingly diverse range of tasks. However, as the
tasks become more complex and long-horizon, the intricate tool utilization
process may trigger various unexpected errors. Therefore, how to effectively
handle such errors, including identifying, diagnosing, and recovering from
them, has emerged as a key research direction for advancing tool learning. In
this work, we first extensively analyze the types of errors encountered during
the function-calling process on several competitive tool evaluation benchmarks.
Based on it, we introduce CRITICTOOL, a comprehensive critique evaluation
benchmark specialized for tool learning. Building upon a novel evolutionary
strategy for dataset construction, CRITICTOOL holds diverse tool-use errors
with varying complexities, which better reflects real-world scenarios. We
conduct extensive experiments on CRITICTOOL, and validate the generalization
and effectiveness of our constructed benchmark strategy. We also provide an
in-depth analysis of the tool reflection ability on various LLMs, offering a
new perspective on the field of tool learning in LLMs. The code is available at
https://github.com/Shellorley0513/CriticTool{https://github.com/Shellorley0513/CriticTool}.