GTA-2: Valutazione degli Agenti Strumentali Generali dall'Uso Atomico di Strumenti ai Flussi di Lavoro Aperti

Abstract

Lo sviluppo di agenti a scopo generale richiede un passaggio dall'esecuzione di semplici istruzioni al completamento di flussi di lavoro produttivi complessi e realistici. Tuttavia, gli attuali benchmark sull'uso di strumenti rimangono disallineati rispetto alle esigenze del mondo reale, basandosi su query generate da IA, strumenti fittizi e una coordinazione a livello di sistema limitata. Per affrontare questo problema, proponiamo GTA-2, un benchmark gerarchico per Agenti Strumento Generici (GTA) che copre l'uso atomico degli strumenti e flussi di lavoro aperti. Basato sull'autenticità del mondo reale, sfrutta query di utenti reali, strumenti implementati e contesti multimodali. (i) GTA-Atomic, ereditato dal nostro precedente benchmark GTA, valuta la precisione nell'uso di strumenti a orizzonte breve e a risultato chiuso. (ii) GTA-Workflow introduce attività a orizzonte lungo e a risultato aperto per un completamento end-to-end realistico. Per valutare i risultati aperti, proponiamo un meccanismo di valutazione ricorsivo basato su checkpoint che scompone gli obiettivi in sotto-obiettivi verificabili, consentendo una valutazione unificata sia delle capacità del modello che dei framework di esecuzione degli agenti (ovvero, gli execution harness). Gli esperimenti rivelano un marcato "precipizio delle capacità": mentre i modelli all'avanguardia mostrano già difficoltà nelle attività atomiche (inferiori al 50%), falliscono in larga misura nei flussi di lavoro, con i modelli migliori che raggiungono solo il 14,39% di successo. Un'analisi più approfondita mostra che il feedback guidato dai checkpoint migliora le prestazioni, mentre framework avanzati come Manus e OpenClaw migliorano sostanzialmente il completamento dei flussi di lavoro, evidenziando l'importanza della progettazione dell'execution harness oltre la capacità del modello sottostante. Questi risultati forniscono indicazioni per lo sviluppo di assistenti personali e professionali affidabili. Il dataset e il codice saranno disponibili su https://github.com/open-compass/GTA.

English

The development of general-purpose agents requires a shift from executing simple instructions to completing complex, real-world productivity workflows. However, current tool-use benchmarks remain misaligned with real-world requirements, relying on AI-generated queries, dummy tools, and limited system-level coordination. To address this, we propose GTA-2, a hierarchical benchmark for General Tool Agents (GTA) spanning atomic tool use and open-ended workflows. Built on real-world authenticity, it leverages real user queries, deployed tools, and multimodal contexts. (i) GTA-Atomic, inherited from our prior GTA benchmark, evaluates short-horizon, closed-ended tool-use precision. (ii) GTA-Workflow introduces long-horizon, open-ended tasks for realistic end-to-end completion. To evaluate open-ended deliverables, we propose a recursive checkpoint-based evaluation mechanism that decomposes objectives into verifiable sub-goals, enabling unified evaluation of both model capabilities and agent execution frameworks (i.e., execution harnesses). Experiments reveal a pronounced capability cliff: while frontier models already struggle on atomic tasks (below 50%), they largely fail on workflows, with top models achieving only 14.39% success. Further analysis shows that checkpoint-guided feedback improves performance, while advanced frameworks such as Manus and OpenClaw substantially enhance workflow completion, highlighting the importance of execution harness design beyond the underlying model capacity. These findings provide guidance for developing reliable personal and professional assistants. Dataset and code will be available at https://github.com/open-compass/GTA.

GTA-2: Valutazione degli Agenti Strumentali Generali dall'Uso Atomico di Strumenti ai Flussi di Lavoro Aperti

GTA-2: Benchmarking General Tool Agents from Atomic Tool-Use to Open-Ended Workflows

Abstract

Support