ChatPaper.aiChatPaper

Workflow-GYM: Zur Langzeitbewertung von agentischen Computernutzungsaufgaben in realen Berufsfeldern

Workflow-GYM: Towards Long-Horizon Evaluation of Computer-use Agentic tasks in Real-World Professional Fields

June 9, 2026
Autoren: Liya Zhu, Jingzhe Ding, Jian Zhang, Jianbo Xue, Shihao Liang, Ge Zhang, Xiang Gao, Qingshui Gu, Mailun Gao, Huimin Che, Yan Zhao, Peiheng Zhou, Haojun Wang, Chaobo Xian, Lili Le, Chi Wu, Yiwei Liu, Shengda Long, Jiale Yang, Fangzhi Xu, Sijin Wu, Haodong Duan, Yi Zhu, Chao He, Zhaojian Li, Minchao Wang, Huan Zhou, Jiani Hou, Chuqian Yu, Weiran Shi, Hongwan Gao, Jiamin Chen, Guanhong Chen, Tingqin Luo, Kaiyuan Zhang, Zhixin Yao, Qing Hua, Yuhao Jiang, Jin Chen, Pu Chen, Zhenyu Hu, Xingyu Li, Zhengxuan Jiang, Meng Cao, Tianfeng Long, Haozhe Wang, Mingzhang Wang, Yichen Zhang, Yiming Dai, Chenchen Zhang, Jiaying Wang, Zhiyong Wu, Shen Yan, Yujia Qin, Wenhao Huang, Zaiyuan Wang, Xiaolong Chang
cs.AI

Zusammenfassung

In den letzten Jahren hat sich die Entwicklung von KI-Agenten rasant beschleunigt, um zunehmend komplexe, realweltliche Aufgaben zu bewältigen. Allerdings bewerten bestehende Benchmarks selten, ob Agenten grafische Benutzeroberflächen (GUIs) bedienen können, um langfristige, hochwertige professionelle Arbeitsabläufe in verschiedenen Bereichen abzuschließen. Aktuelle GUI-Benchmarks konzentrieren sich weiterhin hauptsächlich auf allgemeine Software, relativ einfache Anwendungen und kurzfristige Aufgaben. Daher ist weitgehend unbekannt, ob moderne Agenten Benutzeranweisungen folgen können, um domänenspezifische professionelle Software autonom zu bedienen und wirtschaftlich wertvolle Arbeit vollständig Ende-zu-Ende zu erledigen. Um diese Lücke zu schließen, stellen wir Workflow-GYM vor, einen Benchmark für langfristige GUI-Aufgaben mit Schwerpunkt auf professionellen Domänen und spezialisierten Softwareumgebungen. Durch umfangreiche Experimente mit den modernsten Modellen stellen wir fest, dass selbst die stärksten Modelle nur etwas über 30 % Erfolgsquoten erreichen. Dies verdeutlicht, dass professionelle, langfristige GUI-Arbeitsabläufe für aktuelle GUI-Agenten nach wie vor eine große Herausforderung darstellen. Eine weitere Analyse zeigt, dass aktuelle Agenten Schwierigkeiten haben, die Konsistenz langfristiger Arbeitsabläufe aufrechtzuerhalten, und häufig Phasenauslassungen, Fehlerfortpflanzung, Zielabweichungen sowie ein unzureichendes Verständnis professioneller Softwareumgebungen aufweisen. Unsere Ergebnisse liefern wichtige Einblicke in die Grenzen aktueller Agentensysteme und weisen auf zentrale Richtungen für die nächste Generation der GUI-Agenten-Forschung hin.
English
Recent years have witnessed the rapid evolution of AI agents toward handling increasingly complex, real-world tasks. However, existing benchmarks rarely evaluate whether agents can operate graphical user interfaces to complete long-horizon, high-value professional workflows across diverse domains. Current GUI benchmarks still predominantly focus on general-purpose software, relatively simple applications, and short-horizon tasks, leaving it largely unknown whether modern agents can follow user instructions to autonomously operate domain-specific professional software and accomplish economically valuable work in an end-to-end manner. To bridge this gap, we introduce Workflow-GYM, a benchmark for long-horizon GUI tasks centered on professional domains and specialized software environments. Through extensive experiments on state-of-the-art models, we find that even the strongest models achieve only slightly above 30% success rates, highlighting that professional long-horizon GUI workflows remain highly challenging for current GUI agents. Further analysis reveals that current agents struggle to maintain long-horizon workflow consistency, frequently exhibiting workflow stage omission, error propagation, objective drift, and insufficient understanding of professional software environments. Our findings provide important insights into the limitations of current agent systems and suggest key directions for the next generation of GUI-agent research.