CRITICTOOL: Evaluación de las Capacidades de Autocrítica en Modelos de Lenguaje de Gran Escala en Escenarios de Errores en la Llamada de Herramientas
CRITICTOOL: Evaluating Self-Critique Capabilities of Large Language Models in Tool-Calling Error Scenarios
June 11, 2025
Autores: Shiting Huang, Zhen Fang, Zehui Chen, Siyu Yuan, Junjie Ye, Yu Zeng, Lin Chen, Qi Mao, Feng Zhao
cs.AI
Resumen
La capacidad de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para utilizar herramientas externas les ha permitido abordar una gama cada vez más diversa de tareas. Sin embargo, a medida que las tareas se vuelven más complejas y de largo alcance, el intrincado proceso de utilización de herramientas puede desencadenar diversos errores inesperados. Por lo tanto, cómo manejar efectivamente dichos errores, incluyendo su identificación, diagnóstico y recuperación, ha surgido como una dirección clave de investigación para avanzar en el aprendizaje de herramientas. En este trabajo, primero analizamos extensamente los tipos de errores encontrados durante el proceso de llamada a funciones en varios puntos de referencia competitivos para la evaluación de herramientas. Basándonos en ello, presentamos CRITICTOOL, un punto de referencia de evaluación crítica integral especializado para el aprendizaje de herramientas. Construido sobre una novedosa estrategia evolutiva para la creación de conjuntos de datos, CRITICTOOL contiene diversos errores en el uso de herramientas con diferentes niveles de complejidad, lo que refleja mejor los escenarios del mundo real. Realizamos experimentos extensos en CRITICTOOL y validamos la generalización y efectividad de nuestra estrategia de construcción de puntos de referencia. También proporcionamos un análisis en profundidad de la capacidad de reflexión sobre herramientas en varios LLMs, ofreciendo una nueva perspectiva en el campo del aprendizaje de herramientas en LLMs. El código está disponible en https://github.com/Shellorley0513/CriticTool{https://github.com/Shellorley0513/CriticTool}.
English
The ability of large language models (LLMs) to utilize external tools has
enabled them to tackle an increasingly diverse range of tasks. However, as the
tasks become more complex and long-horizon, the intricate tool utilization
process may trigger various unexpected errors. Therefore, how to effectively
handle such errors, including identifying, diagnosing, and recovering from
them, has emerged as a key research direction for advancing tool learning. In
this work, we first extensively analyze the types of errors encountered during
the function-calling process on several competitive tool evaluation benchmarks.
Based on it, we introduce CRITICTOOL, a comprehensive critique evaluation
benchmark specialized for tool learning. Building upon a novel evolutionary
strategy for dataset construction, CRITICTOOL holds diverse tool-use errors
with varying complexities, which better reflects real-world scenarios. We
conduct extensive experiments on CRITICTOOL, and validate the generalization
and effectiveness of our constructed benchmark strategy. We also provide an
in-depth analysis of the tool reflection ability on various LLMs, offering a
new perspective on the field of tool learning in LLMs. The code is available at
https://github.com/Shellorley0513/CriticTool{https://github.com/Shellorley0513/CriticTool}.