CRITICTOOL: Evaluatie van zelfkritische vermogens van grote taalmodellen in foutscenario's bij tool-aanroepen
CRITICTOOL: Evaluating Self-Critique Capabilities of Large Language Models in Tool-Calling Error Scenarios
June 11, 2025
Auteurs: Shiting Huang, Zhen Fang, Zehui Chen, Siyu Yuan, Junjie Ye, Yu Zeng, Lin Chen, Qi Mao, Feng Zhao
cs.AI
Samenvatting
Het vermogen van grote taalmmodellen (LLMs) om externe tools te gebruiken, heeft hen in staat gesteld om een steeds diverser scala aan taken aan te pakken. Naarmate de taken echter complexer en langduriger worden, kan het ingewikkelde proces van toolgebruik verschillende onverwachte fouten veroorzaken. Daarom is het effectief omgaan met dergelijke fouten, waaronder het identificeren, diagnosticeren en herstellen ervan, een belangrijke onderzoeksrichting geworden voor het bevorderen van tool learning. In dit werk analyseren we eerst uitgebreid de soorten fouten die worden aangetroffen tijdens het functie-aanroep proces op verschillende competitieve tool-evaluatiebenchmarks. Op basis hiervan introduceren we CRITICTOOL, een uitgebreide kritische evaluatiebenchmark die gespecialiseerd is voor tool learning. Gebaseerd op een nieuwe evolutionaire strategie voor datasetconstructie, bevat CRITICTOOL diverse toolgebruiksfouten met variërende complexiteiten, wat beter aansluit bij realistische scenario's. We voeren uitgebreide experimenten uit op CRITICTOOL en valideren de generalisatie en effectiviteit van onze geconstrueerde benchmarkstrategie. We bieden ook een diepgaande analyse van het reflectievermogen van tools op verschillende LLMs, wat een nieuw perspectief biedt op het gebied van tool learning in LLMs. De code is beschikbaar op https://github.com/Shellorley0513/CriticTool{https://github.com/Shellorley0513/CriticTool}.
English
The ability of large language models (LLMs) to utilize external tools has
enabled them to tackle an increasingly diverse range of tasks. However, as the
tasks become more complex and long-horizon, the intricate tool utilization
process may trigger various unexpected errors. Therefore, how to effectively
handle such errors, including identifying, diagnosing, and recovering from
them, has emerged as a key research direction for advancing tool learning. In
this work, we first extensively analyze the types of errors encountered during
the function-calling process on several competitive tool evaluation benchmarks.
Based on it, we introduce CRITICTOOL, a comprehensive critique evaluation
benchmark specialized for tool learning. Building upon a novel evolutionary
strategy for dataset construction, CRITICTOOL holds diverse tool-use errors
with varying complexities, which better reflects real-world scenarios. We
conduct extensive experiments on CRITICTOOL, and validate the generalization
and effectiveness of our constructed benchmark strategy. We also provide an
in-depth analysis of the tool reflection ability on various LLMs, offering a
new perspective on the field of tool learning in LLMs. The code is available at
https://github.com/Shellorley0513/CriticTool{https://github.com/Shellorley0513/CriticTool}.