GTA: Um Benchmark para Agentes de Ferramentas Gerais
GTA: A Benchmark for General Tool Agents
July 11, 2024
Autores: Jize Wang, Zerun Ma, Yining Li, Songyang Zhang, Cailian Chen, Kai Chen, Xinyi Le
cs.AI
Resumo
Um foco significativo tem sido colocado na integração de grandes modelos de linguagem (LLMs) com várias ferramentas no desenvolvimento de agentes de propósito geral. Isso representa um desafio para as capacidades de uso de ferramentas dos LLMs. No entanto, existem lacunas evidentes entre as avaliações de uso de ferramentas existentes e cenários do mundo real. As avaliações atuais frequentemente utilizam consultas geradas por IA, tarefas de um único passo, ferramentas fictícias e interações apenas de texto, falhando em revelar efetivamente as habilidades dos agentes na resolução de problemas do mundo real. Para lidar com isso, propomos GTA, um benchmark para Agentes de Ferramentas Gerais, apresentando três aspectos principais: (i) Consultas de usuários reais: consultas escritas por humanos com objetivos simples do mundo real, mas com uso implícito de ferramentas, exigindo que o LLM raciocine sobre as ferramentas adequadas e planeje as etapas da solução. (ii) Ferramentas reais implantadas: uma plataforma de avaliação equipada com ferramentas nas categorias de percepção, operação, lógica e criatividade para avaliar o desempenho real da execução de tarefas dos agentes. (iii) Entradas multimodais reais: arquivos de imagem autênticos, como cenas espaciais, capturas de tela de páginas da web, tabelas, trechos de código e materiais impressos/manuscritos, usados como contextos de consulta para se alinhar de perto com cenários do mundo real. Projetamos 229 tarefas do mundo real e cadeias de ferramentas executáveis para avaliar os LLMs mais comuns. Nossas descobertas mostram que as consultas de usuários do mundo real são desafiadoras para os LLMs existentes, com o GPT-4 completando menos de 50% das tarefas e a maioria dos LLMs alcançando menos de 25%. Essa avaliação revela os gargalos nas capacidades de uso de ferramentas dos LLMs atuais em cenários do mundo real, o que fornece direções futuras para o avanço de agentes de ferramentas de propósito geral. O código e o conjunto de dados estão disponíveis em https://github.com/open-compass/GTA.
English
Significant focus has been placed on integrating large language models (LLMs)
with various tools in developing general-purpose agents. This poses a challenge
to LLMs' tool-use capabilities. However, there are evident gaps between
existing tool-use evaluations and real-world scenarios. Current evaluations
often use AI-generated queries, single-step tasks, dummy tools, and text-only
interactions, failing to reveal the agents' real-world problem-solving
abilities effectively. To address this, we propose GTA, a benchmark for General
Tool Agents, featuring three main aspects: (i) Real user queries: human-written
queries with simple real-world objectives but implicit tool-use, requiring the
LLM to reason the suitable tools and plan the solution steps. (ii) Real
deployed tools: an evaluation platform equipped with tools across perception,
operation, logic, and creativity categories to evaluate the agents' actual task
execution performance. (iii) Real multimodal inputs: authentic image files,
such as spatial scenes, web page screenshots, tables, code snippets, and
printed/handwritten materials, used as the query contexts to align with
real-world scenarios closely. We design 229 real-world tasks and executable
tool chains to evaluate mainstream LLMs. Our findings show that real-world user
queries are challenging for existing LLMs, with GPT-4 completing less than 50%
of the tasks and most LLMs achieving below 25%. This evaluation reveals the
bottlenecks in the tool-use capabilities of current LLMs in real-world
scenarios, which provides future direction for advancing general-purpose tool
agents. The code and dataset are available at
https://github.com/open-compass/GTA.