NesTools: Un conjunto de datos para evaluar las habilidades de aprendizaje de herramientas anidadas de modelos de lenguaje grandes
NesTools: A Dataset for Evaluating Nested Tool Learning Abilities of Large Language Models
October 15, 2024
Autores: Han Han, Tong Zhu, Xiang Zhang, Mengsong Wu, Hao Xiong, Wenliang Chen
cs.AI
Resumen
Los modelos de lenguaje grandes (LLMs) combinados con el aprendizaje de herramientas han logrado resultados impresionantes en aplicaciones del mundo real. Durante el aprendizaje de herramientas, los LLMs pueden llamar a múltiples herramientas en órdenes anidados, donde la llamada de la herramienta posterior puede tomar la respuesta anterior como sus parámetros de entrada. Sin embargo, la investigación actual sobre las capacidades de aprendizaje de herramientas anidadas aún está poco explorada, ya que los benchmarks existentes carecen de instancias de datos relevantes. Para abordar este problema, presentamos NesTools para cerrar la brecha actual en evaluaciones exhaustivas de aprendizaje de herramientas anidadas. NesTools comprende un novedoso método automático de generación de datos para construir llamadas de herramientas anidadas a gran escala con diferentes estructuras de anidación. Con revisión y refinamiento manuales, el conjunto de datos es de alta calidad y está estrechamente alineado con escenarios del mundo real. Por lo tanto, NesTools puede servir como un nuevo benchmark para evaluar las capacidades de aprendizaje de herramientas anidadas de los LLMs. Realizamos experimentos extensos con 22 LLMs y proporcionamos análisis detallados con NesTools, que muestran que los LLMs actuales aún sufren con la tarea compleja de aprendizaje de herramientas anidadas.
English
Large language models (LLMs) combined with tool learning have gained
impressive results in real-world applications. During tool learning, LLMs may
call multiple tools in nested orders, where the latter tool call may take the
former response as its input parameters. However, current research on the
nested tool learning capabilities is still under-explored, since the existing
benchmarks lack of relevant data instances. To address this problem, we
introduce NesTools to bridge the current gap in comprehensive nested tool
learning evaluations. NesTools comprises a novel automatic data generation
method to construct large-scale nested tool calls with different nesting
structures. With manual review and refinement, the dataset is in high quality
and closely aligned with real-world scenarios. Therefore, NesTools can serve as
a new benchmark to evaluate the nested tool learning abilities of LLMs. We
conduct extensive experiments on 22 LLMs, and provide in-depth analyses with
NesTools, which shows that current LLMs still suffer from the complex nested
tool learning task.Summary
AI-Generated Summary