GTA-2: Avaliação de Agentes de Ferramentas Gerais: Do Uso Atômico de Ferramentas a Fluxos de Trabalho Abertos

Resumo

O desenvolvimento de agentes de propósito geral requer uma transição da execução de instruções simples para a conclusão de fluxos de trabalho produtivos complexos e do mundo real. No entanto, os benchmarks atuais de uso de ferramentas permanecem desalinhados com os requisitos do mundo real, dependendo de consultas geradas por IA, ferramentas fictícias e coordenação limitada a nível de sistema. Para resolver isso, propomos o GTA-2, um benchmark hierárquico para Agentes de Ferramenta Geral (GTA) abrangendo o uso atômico de ferramentas e fluxos de trabalho abertos. Construído com base na autenticidade do mundo real, ele aproveita consultas de usuários reais, ferramentas implantadas e contextos multimodais. (i) O GTA-Atomic, herdado do nosso benchmark GTA anterior, avalia a precisão de uso de ferramentas de curto prazo e de fim fechado. (ii) O GTA-Workflow introduz tarefas de longo prazo e abertas para conclusão realista de ponta a ponta. Para avaliar entregáveis abertos, propomos um mecanismo de avaliação recursivo baseado em *checkpoints* que decompõe objetivos em submetas verificáveis, permitindo uma avaliação unificada tanto das capacidades do modelo quanto dos frameworks de execução de agentes (ou seja, *execution harnesses*). Experimentos revelam um pronunciado precipício de capacidade: enquanto os modelos de fronteira já lutam em tarefas atômicas (abaixo de 50%), eles falham amplamente em fluxos de trabalho, com os melhores modelos alcançando apenas 14,39% de sucesso. Análises adicionais mostram que o *feedback* guiado por *checkpoints* melhora o desempenho, enquanto frameworks avançados como Manus e OpenClaw melhoram substancialmente a conclusão do fluxo de trabalho, destacando a importância do projeto do *execution harness* além da capacidade do modelo subjacente. Essas descobertas fornecem orientação para o desenvolvimento de assistentes pessoais e profissionais confiáveis. O conjunto de dados e o código estarão disponíveis em https://github.com/open-compass/GTA.

English

The development of general-purpose agents requires a shift from executing simple instructions to completing complex, real-world productivity workflows. However, current tool-use benchmarks remain misaligned with real-world requirements, relying on AI-generated queries, dummy tools, and limited system-level coordination. To address this, we propose GTA-2, a hierarchical benchmark for General Tool Agents (GTA) spanning atomic tool use and open-ended workflows. Built on real-world authenticity, it leverages real user queries, deployed tools, and multimodal contexts. (i) GTA-Atomic, inherited from our prior GTA benchmark, evaluates short-horizon, closed-ended tool-use precision. (ii) GTA-Workflow introduces long-horizon, open-ended tasks for realistic end-to-end completion. To evaluate open-ended deliverables, we propose a recursive checkpoint-based evaluation mechanism that decomposes objectives into verifiable sub-goals, enabling unified evaluation of both model capabilities and agent execution frameworks (i.e., execution harnesses). Experiments reveal a pronounced capability cliff: while frontier models already struggle on atomic tasks (below 50%), they largely fail on workflows, with top models achieving only 14.39% success. Further analysis shows that checkpoint-guided feedback improves performance, while advanced frameworks such as Manus and OpenClaw substantially enhance workflow completion, highlighting the importance of execution harness design beyond the underlying model capacity. These findings provide guidance for developing reliable personal and professional assistants. Dataset and code will be available at https://github.com/open-compass/GTA.

GTA-2: Avaliação de Agentes de Ferramentas Gerais: Do Uso Atômico de Ferramentas a Fluxos de Trabalho Abertos

GTA-2: Benchmarking General Tool Agents from Atomic Tool-Use to Open-Ended Workflows

Resumo

Support