Workflow-GYM: Naar langetermijnevaluatie van agentische computertaken in echte professionele vakgebieden

Samenvatting

De afgelopen jaren is er sprake geweest van een snelle evolutie van AI-agenten richting het uitvoeren van steeds complexere, realistische taken. Echter, bestaande benchmarks evalueren zelden of agenten grafische gebruikersinterfaces kunnen bedienen om langdurige, hoogwaardige professionele workflows in diverse domeinen te voltooien. Huidige GUI-benchmarks richten zich nog steeds voornamelijk op algemene software, relatief eenvoudige toepassingen en kortdurende taken, waardoor het grotendeels onbekend blijft of moderne agenten gebruikersinstructies kunnen volgen om autonoom domeinspecifieke professionele software te bedienen en economisch waardevol werk end-to-end te verrichten. Om deze kloof te overbruggen, introduceren we Workflow-GYM, een benchmark voor langdurige GUI-taken die zich richt op professionele domeinen en gespecialiseerde softwareomgevingen. Door middel van uitgebreide experimenten met state-of-the-art modellen ontdekken we dat zelfs de sterkste modellen slechts iets meer dan 30% slagingspercentages behalen, wat benadrukt dat professionele langdurige GUI-workflows zeer uitdagend blijven voor huidige GUI-agenten. Verdere analyse toont aan dat huidige agenten moeite hebben met het handhaven van consistentie in langdurige workflows, waarbij ze vaak workflowfasen overslaan, foutenpropagatie vertonen, objectiefverschuiving ondervinden en onvoldoende begrip hebben van professionele softwareomgevingen. Onze bevindingen bieden belangrijke inzichten in de beperkingen van huidige agentsystemen en suggereren belangrijke richtingen voor het volgende generatie GUI-agentonderzoek.

English

Recent years have witnessed the rapid evolution of AI agents toward handling increasingly complex, real-world tasks. However, existing benchmarks rarely evaluate whether agents can operate graphical user interfaces to complete long-horizon, high-value professional workflows across diverse domains. Current GUI benchmarks still predominantly focus on general-purpose software, relatively simple applications, and short-horizon tasks, leaving it largely unknown whether modern agents can follow user instructions to autonomously operate domain-specific professional software and accomplish economically valuable work in an end-to-end manner. To bridge this gap, we introduce Workflow-GYM, a benchmark for long-horizon GUI tasks centered on professional domains and specialized software environments. Through extensive experiments on state-of-the-art models, we find that even the strongest models achieve only slightly above 30% success rates, highlighting that professional long-horizon GUI workflows remain highly challenging for current GUI agents. Further analysis reveals that current agents struggle to maintain long-horizon workflow consistency, frequently exhibiting workflow stage omission, error propagation, objective drift, and insufficient understanding of professional software environments. Our findings provide important insights into the limitations of current agent systems and suggest key directions for the next generation of GUI-agent research.