ToolTalk: Evaluación del Uso de Herramientas en un Entorno Conversacional
ToolTalk: Evaluating Tool-Usage in a Conversational Setting
November 15, 2023
Autores: Nicholas Farn, Richard Shin
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han mostrado mejoras significativas en habilidades de razonamiento y toma de decisiones, y pueden mantener conversaciones naturales con los usuarios. Muchos trabajos recientes buscan potenciar a los asistentes basados en LLMs con herramientas externas para que puedan acceder a información privada o actualizada y realizar acciones en nombre de los usuarios. Para medir mejor el rendimiento de estos asistentes, este artículo presenta ToolTalk, un benchmark que consiste en intenciones complejas de usuarios que requieren el uso de herramientas en múltiples pasos especificados a través de diálogos. ToolTalk contiene 28 herramientas agrupadas en 7 complementos, e incluye una implementación simulada completa de cada herramienta, permitiendo una evaluación totalmente automatizada de asistentes que dependen de retroalimentación de ejecución. ToolTalk también enfatiza herramientas que afectan externamente al mundo, en lugar de solo herramientas para consultar o buscar información. Evaluamos GPT-3.5 y GPT-4 en ToolTalk, obteniendo tasas de éxito del 26% y 50%, respectivamente. Nuestro análisis de los errores revela tres categorías principales y sugiere algunas direcciones futuras para la mejora. Publicamos ToolTalk en https://github.com/microsoft/ToolTalk.
English
Large language models (LLMs) have displayed massive improvements in reason-
ing and decision-making skills and can hold natural conversations with users.
Many recent works seek to augment LLM-based assistants with external tools so
they can access private or up-to-date information and carry out actions on
behalf of users. To better measure the performance of these assistants, this
paper introduces ToolTalk, a benchmark consisting of complex user intents re-
quiring multi-step tool usage specified through dialogue. ToolTalk contains 28
tools grouped into 7 plugins, and includes a complete simulated implementa-
tion of each tool, allowing for fully automated evaluation of assistants that
rely on execution feedback. ToolTalk also emphasizes tools that externally
affect the world rather than only tools for referencing or searching
information. We evaluate GPT-3.5 and GPT-4 on ToolTalk resulting in success
rates of 26% and 50% respectively. Our analysis of the errors reveals three
major categories and suggests some future directions for improvement. We
release ToolTalk at https://github.com/microsoft/ToolTalk.