ChatPaper.aiChatPaper

CRITICTOOL: Bewertung der Selbstkritikfähigkeiten großer Sprachmodelle in Fehlerszenarien bei Werkzeugaufrufen

CRITICTOOL: Evaluating Self-Critique Capabilities of Large Language Models in Tool-Calling Error Scenarios

June 11, 2025
Autoren: Shiting Huang, Zhen Fang, Zehui Chen, Siyu Yuan, Junjie Ye, Yu Zeng, Lin Chen, Qi Mao, Feng Zhao
cs.AI

Zusammenfassung

Die Fähigkeit großer Sprachmodelle (LLMs), externe Werkzeuge zu nutzen, ermöglicht es ihnen, eine zunehmend vielfältige Palette von Aufgaben zu bewältigen. Allerdings können bei komplexeren und langfristigen Aufgaben die komplizierten Prozesse der Werkzeugnutzung verschiedene unerwartete Fehler auslösen. Daher ist die effektive Handhabung solcher Fehler, einschließlich ihrer Identifizierung, Diagnose und Behebung, zu einem zentralen Forschungsziel für die Weiterentwicklung des Werkzeuglernens geworden. In dieser Arbeit analysieren wir zunächst umfassend die Arten von Fehlern, die während des Funktionsaufrufprozesses in mehreren wettbewerbsfähigen Werkzeug-Evaluierungs-Benchmarks auftreten. Basierend darauf stellen wir CRITICTOOL vor, einen umfassenden Kritik-Evaluierungs-Benchmark, der speziell für das Werkzeuglernen entwickelt wurde. Aufbauend auf einer neuartigen evolutionären Strategie zur Datensatzerstellung, enthält CRITICTOOL diverse Werkzeugnutzungsfehler mit unterschiedlichen Komplexitäten, die realistische Szenarien besser widerspiegeln. Wir führen umfangreiche Experimente auf CRITICTOOL durch und validieren die Generalisierungsfähigkeit und Effektivität unserer konstruierten Benchmark-Strategie. Zudem bieten wir eine detaillierte Analyse der Fähigkeit zur Werkzeugreflexion bei verschiedenen LLMs, was eine neue Perspektive auf das Feld des Werkzeuglernens in LLMs eröffnet. Der Code ist verfügbar unter https://github.com/Shellorley0513/CriticTool{https://github.com/Shellorley0513/CriticTool}.
English
The ability of large language models (LLMs) to utilize external tools has enabled them to tackle an increasingly diverse range of tasks. However, as the tasks become more complex and long-horizon, the intricate tool utilization process may trigger various unexpected errors. Therefore, how to effectively handle such errors, including identifying, diagnosing, and recovering from them, has emerged as a key research direction for advancing tool learning. In this work, we first extensively analyze the types of errors encountered during the function-calling process on several competitive tool evaluation benchmarks. Based on it, we introduce CRITICTOOL, a comprehensive critique evaluation benchmark specialized for tool learning. Building upon a novel evolutionary strategy for dataset construction, CRITICTOOL holds diverse tool-use errors with varying complexities, which better reflects real-world scenarios. We conduct extensive experiments on CRITICTOOL, and validate the generalization and effectiveness of our constructed benchmark strategy. We also provide an in-depth analysis of the tool reflection ability on various LLMs, offering a new perspective on the field of tool learning in LLMs. The code is available at https://github.com/Shellorley0513/CriticTool{https://github.com/Shellorley0513/CriticTool}.
PDF82June 18, 2025