ChatPaper.aiChatPaper

GTA: Un Referente para Agentes de Herramientas Generales

GTA: A Benchmark for General Tool Agents

July 11, 2024
Autores: Jize Wang, Zerun Ma, Yining Li, Songyang Zhang, Cailian Chen, Kai Chen, Xinyi Le
cs.AI

Resumen

Se ha puesto un enfoque significativo en integrar modelos de lenguaje grandes (LLMs, por sus siglas en inglés) con varias herramientas en el desarrollo de agentes de propósito general. Esto plantea un desafío para las capacidades de uso de herramientas de los LLMs. Sin embargo, existen brechas evidentes entre las evaluaciones de uso de herramientas existentes y los escenarios del mundo real. Las evaluaciones actuales a menudo utilizan consultas generadas por IA, tareas de un solo paso, herramientas ficticias e interacciones solo de texto, lo que no logra revelar de manera efectiva las habilidades de resolución de problemas del agente en el mundo real. Para abordar esto, proponemos GTA, un punto de referencia para Agentes de Herramientas Generales, que presenta tres aspectos principales: (i) Consultas de usuarios reales: consultas escritas por humanos con objetivos del mundo real simples pero con uso implícito de herramientas, lo que requiere que el LLM razone sobre las herramientas adecuadas y planifique los pasos de la solución. (ii) Herramientas reales desplegadas: una plataforma de evaluación equipada con herramientas en las categorías de percepción, operación, lógica y creatividad para evaluar el rendimiento real de ejecución de tareas de los agentes. (iii) Entradas multimodales reales: archivos de imagen auténticos, como escenas espaciales, capturas de pantalla de páginas web, tablas, fragmentos de código y materiales impresos/manuscritos, utilizados como contextos de consulta para alinearse estrechamente con escenarios del mundo real. Diseñamos 229 tareas del mundo real y cadenas de herramientas ejecutables para evaluar los LLMs principales. Nuestros hallazgos muestran que las consultas de usuarios del mundo real son desafiantes para los LLMs existentes, con GPT-4 completando menos del 50% de las tareas y la mayoría de los LLMs logrando menos del 25%. Esta evaluación revela los cuellos de botella en las capacidades de uso de herramientas de los LLMs actuales en escenarios del mundo real, lo que proporciona una dirección futura para avanzar en agentes de herramientas de propósito general. El código y el conjunto de datos están disponibles en https://github.com/open-compass/GTA.
English
Significant focus has been placed on integrating large language models (LLMs) with various tools in developing general-purpose agents. This poses a challenge to LLMs' tool-use capabilities. However, there are evident gaps between existing tool-use evaluations and real-world scenarios. Current evaluations often use AI-generated queries, single-step tasks, dummy tools, and text-only interactions, failing to reveal the agents' real-world problem-solving abilities effectively. To address this, we propose GTA, a benchmark for General Tool Agents, featuring three main aspects: (i) Real user queries: human-written queries with simple real-world objectives but implicit tool-use, requiring the LLM to reason the suitable tools and plan the solution steps. (ii) Real deployed tools: an evaluation platform equipped with tools across perception, operation, logic, and creativity categories to evaluate the agents' actual task execution performance. (iii) Real multimodal inputs: authentic image files, such as spatial scenes, web page screenshots, tables, code snippets, and printed/handwritten materials, used as the query contexts to align with real-world scenarios closely. We design 229 real-world tasks and executable tool chains to evaluate mainstream LLMs. Our findings show that real-world user queries are challenging for existing LLMs, with GPT-4 completing less than 50% of the tasks and most LLMs achieving below 25%. This evaluation reveals the bottlenecks in the tool-use capabilities of current LLMs in real-world scenarios, which provides future direction for advancing general-purpose tool agents. The code and dataset are available at https://github.com/open-compass/GTA.

Summary

AI-Generated Summary

PDF173November 28, 2024