Workflow-GYM: 実世界の専門分野におけるコンピュータ操作エージェントタスクの長期的評価に向けて
Workflow-GYM: Towards Long-Horizon Evaluation of Computer-use Agentic tasks in Real-World Professional Fields
June 9, 2026
著者: Liya Zhu, Jingzhe Ding, Jian Zhang, Jianbo Xue, Shihao Liang, Ge Zhang, Xiang Gao, Qingshui Gu, Mailun Gao, Huimin Che, Yan Zhao, Peiheng Zhou, Haojun Wang, Chaobo Xian, Lili Le, Chi Wu, Yiwei Liu, Shengda Long, Jiale Yang, Fangzhi Xu, Sijin Wu, Haodong Duan, Yi Zhu, Chao He, Zhaojian Li, Minchao Wang, Huan Zhou, Jiani Hou, Chuqian Yu, Weiran Shi, Hongwan Gao, Jiamin Chen, Guanhong Chen, Tingqin Luo, Kaiyuan Zhang, Zhixin Yao, Qing Hua, Yuhao Jiang, Jin Chen, Pu Chen, Zhenyu Hu, Xingyu Li, Zhengxuan Jiang, Meng Cao, Tianfeng Long, Haozhe Wang, Mingzhang Wang, Yichen Zhang, Yiming Dai, Chenchen Zhang, Jiaying Wang, Zhiyong Wu, Shen Yan, Yujia Qin, Wenhao Huang, Zaiyuan Wang, Xiaolong Chang
cs.AI
要旨
近年、AIエージェントはますます複雑化する実世界のタスクを処理する方向へと急速に進化してきた。しかしながら、既存のベンチマークでは、エージェントがグラフィカルユーザインタフェースを操作して、多様な領域にわたる長期的かつ高価値な専門的ワークフローを完遂できるかどうかは、ほとんど評価されていない。現在のGUIベンチマークは依然として汎用ソフトウェア、比較的単純なアプリケーション、短期間のタスクに重点を置いており、最新のエージェントがユーザの指示に従ってドメイン固有の専門ソフトウェアを自律的に操作し、経済的に価値のある作業をエンドツーエンドで達成できるかどうかは、ほぼ未知のままである。このギャップを埋めるために、我々はWorkflow-GYMを導入する。これは、専門領域と専門的なソフトウェア環境に焦点を当てた、長期的なGUIタスクのベンチマークである。最先端モデルを用いた広範な実験を通じて、最強のモデルでさえ成功率がわずか30%超にとどまることが明らかになり、専門的な長期的GUIワークフローが現在のGUIエージェントにとって依然として非常に困難であることが浮き彫りになった。さらなる分析により、現在のエージェントは長期的なワークフローの一貫性を維持することが困難であり、ワークフローの段階の欠落、エラーの伝播、目的の逸脱、専門ソフトウェア環境に対する理解不足を頻繁に示すことが判明した。我々の発見は、現在のエージェントシステムの限界に関する重要な洞察を提供し、次世代のGUIエージェント研究の主要な方向性を示唆するものである。
English
Recent years have witnessed the rapid evolution of AI agents toward handling increasingly complex, real-world tasks. However, existing benchmarks rarely evaluate whether agents can operate graphical user interfaces to complete long-horizon, high-value professional workflows across diverse domains. Current GUI benchmarks still predominantly focus on general-purpose software, relatively simple applications, and short-horizon tasks, leaving it largely unknown whether modern agents can follow user instructions to autonomously operate domain-specific professional software and accomplish economically valuable work in an end-to-end manner. To bridge this gap, we introduce Workflow-GYM, a benchmark for long-horizon GUI tasks centered on professional domains and specialized software environments. Through extensive experiments on state-of-the-art models, we find that even the strongest models achieve only slightly above 30% success rates, highlighting that professional long-horizon GUI workflows remain highly challenging for current GUI agents. Further analysis reveals that current agents struggle to maintain long-horizon workflow consistency, frequently exhibiting workflow stage omission, error propagation, objective drift, and insufficient understanding of professional software environments. Our findings provide important insights into the limitations of current agent systems and suggest key directions for the next generation of GUI-agent research.