CRITICTOOL: Valutazione delle Capacità di Autocritica dei Modelli Linguistici di Grandi Dimensioni negli Scenari di Errore nella Chiamata di Strumenti
CRITICTOOL: Evaluating Self-Critique Capabilities of Large Language Models in Tool-Calling Error Scenarios
June 11, 2025
Autori: Shiting Huang, Zhen Fang, Zehui Chen, Siyu Yuan, Junjie Ye, Yu Zeng, Lin Chen, Qi Mao, Feng Zhao
cs.AI
Abstract
La capacità dei grandi modelli linguistici (LLM) di utilizzare strumenti esterni ha permesso loro di affrontare un numero sempre più diversificato di compiti. Tuttavia, man mano che i compiti diventano più complessi e a lungo termine, il processo intricato di utilizzo degli strumenti può scatenare vari errori imprevisti. Pertanto, come gestire efficacemente tali errori, inclusi l'identificazione, la diagnosi e il recupero da essi, è emerso come una direzione di ricerca chiave per avanzare nell'apprendimento degli strumenti. In questo lavoro, analizziamo prima in modo estensivo i tipi di errori riscontrati durante il processo di chiamata di funzione su diversi benchmark competitivi di valutazione degli strumenti. Sulla base di ciò, introduciamo CRITICTOOL, un benchmark di valutazione critica completo specializzato per l'apprendimento degli strumenti. Costruito su una nuova strategia evolutiva per la costruzione del dataset, CRITICTOOL include errori di utilizzo degli strumenti di varia complessità, che riflettono meglio scenari del mondo reale. Condividiamo esperimenti estesi su CRITICTOOL e convalidiamo la generalizzazione e l'efficacia della nostra strategia di benchmark costruita. Forniamo anche un'analisi approfondita della capacità di riflessione sugli strumenti su vari LLM, offrendo una nuova prospettiva nel campo dell'apprendimento degli strumenti nei LLM. Il codice è disponibile all'indirizzo https://github.com/Shellorley0513/CriticTool{https://github.com/Shellorley0513/CriticTool}.
English
The ability of large language models (LLMs) to utilize external tools has
enabled them to tackle an increasingly diverse range of tasks. However, as the
tasks become more complex and long-horizon, the intricate tool utilization
process may trigger various unexpected errors. Therefore, how to effectively
handle such errors, including identifying, diagnosing, and recovering from
them, has emerged as a key research direction for advancing tool learning. In
this work, we first extensively analyze the types of errors encountered during
the function-calling process on several competitive tool evaluation benchmarks.
Based on it, we introduce CRITICTOOL, a comprehensive critique evaluation
benchmark specialized for tool learning. Building upon a novel evolutionary
strategy for dataset construction, CRITICTOOL holds diverse tool-use errors
with varying complexities, which better reflects real-world scenarios. We
conduct extensive experiments on CRITICTOOL, and validate the generalization
and effectiveness of our constructed benchmark strategy. We also provide an
in-depth analysis of the tool reflection ability on various LLMs, offering a
new perspective on the field of tool learning in LLMs. The code is available at
https://github.com/Shellorley0513/CriticTool{https://github.com/Shellorley0513/CriticTool}.