GTA-2: Een benchmark voor algemene toolagenten, van atomair toolgebruik tot open-ended workflows

Samenvatting

De ontwikkeling van algemene agents vereist een verschuiving van het uitvoeren van eenvoudige instructies naar het voltooien van complexe, real-world productiviteitsworkflows. Huidige benchmarks voor toolgebruik zijn echter nog steeds niet afgestemd op de eisen van de praktijk, doordat ze vertrouwen op AI-gegenereerde queries, dummy-tools en beperkte systeemcoördinatie. Om dit aan te pakken, stellen we GTA-2 voor, een hiërarchische benchmark voor General Tool Agents (GTA) die zich uitstrekt van atomair toolgebruik tot open-ended workflows. Gebaseerd op real-world authenticiteit, maakt het gebruik van echte gebruikersqueries, geïmplementeerde tools en multimodale contexten. (i) GTA-Atomic, overgenomen van onze eerdere GTA-benchmark, evalueert de precisie van kortetermijn, gesloten toolgebruik. (ii) GTA-Workflow introduceert langetermijn, open-ended taken voor realistische end-to-end voltooiing. Om open-ended resultaten te evalueren, stellen we een recursief, op checkpoints gebaseerd evaluatiemechanisme voor dat doelstellingen decomposeert in verifieerbare subdoelen, waardoor een uniforme evaluatie van zowel modelcapaciteiten als agent-uitvoeringsframeworks (execution harnesses) mogelijk wordt. Experimenten tonen een duidelijke capability cliff aan: waar frontier-modellen al moeite hebben met atomare taken (minder dan 50%), falen ze grotendeels bij workflows, waarbij de topmodellen slechts 14,39% succes behalen. Verdere analyse toont aan dat feedback geleid door checkpoints de prestaties verbetert, en dat geavanceerde frameworks zoals Manus en OpenClaw de workflowvoltooiing aanzienlijk verbeteren, wat het belang benadrukt van het ontwerp van execution harnesses naast de onderliggende modelcapaciteit. Deze bevindingen bieden richtlijnen voor de ontwikkeling van betrouwbare persoonlijke en professionele assistenten. De dataset en code zullen beschikbaar zijn op https://github.com/open-compass/GTA.

English

The development of general-purpose agents requires a shift from executing simple instructions to completing complex, real-world productivity workflows. However, current tool-use benchmarks remain misaligned with real-world requirements, relying on AI-generated queries, dummy tools, and limited system-level coordination. To address this, we propose GTA-2, a hierarchical benchmark for General Tool Agents (GTA) spanning atomic tool use and open-ended workflows. Built on real-world authenticity, it leverages real user queries, deployed tools, and multimodal contexts. (i) GTA-Atomic, inherited from our prior GTA benchmark, evaluates short-horizon, closed-ended tool-use precision. (ii) GTA-Workflow introduces long-horizon, open-ended tasks for realistic end-to-end completion. To evaluate open-ended deliverables, we propose a recursive checkpoint-based evaluation mechanism that decomposes objectives into verifiable sub-goals, enabling unified evaluation of both model capabilities and agent execution frameworks (i.e., execution harnesses). Experiments reveal a pronounced capability cliff: while frontier models already struggle on atomic tasks (below 50%), they largely fail on workflows, with top models achieving only 14.39% success. Further analysis shows that checkpoint-guided feedback improves performance, while advanced frameworks such as Manus and OpenClaw substantially enhance workflow completion, highlighting the importance of execution harness design beyond the underlying model capacity. These findings provide guidance for developing reliable personal and professional assistants. Dataset and code will be available at https://github.com/open-compass/GTA.

GTA-2: Een benchmark voor algemene toolagenten, van atomair toolgebruik tot open-ended workflows

GTA-2: Benchmarking General Tool Agents from Atomic Tool-Use to Open-Ended Workflows

Samenvatting

Support