Workflow-GYM: К долгосрочной оценке агентных задач по использованию компьютера в реальных профессиональных областях

Аннотация

В последние годы наблюдается стремительная эволюция AI-агентов, направленная на решение всё более сложных задач в реальном мире. Однако существующие бенчмарки редко оценивают способность агентов работать с графическими интерфейсами пользователя для выполнения долгосрочных, высокоценных профессиональных рабочих процессов в различных областях. Современные бенчмарки для графических интерфейсов по-прежнему в основном ориентированы на программное обеспечение общего назначения, относительно простые приложения и краткосрочные задачи, что оставляет в значительной степени невыясненным вопрос, могут ли современные агенты следовать инструкциям пользователя для автономной работы с профессиональным специализированным программным обеспечением и выполнения экономически ценной работы сквозным образом. Для устранения этого пробела мы представляем Workflow-GYM — бенчмарк для долгосрочных задач с графическим интерфейсом, ориентированный на профессиональные области и специализированные программные среды. В ходе обширных экспериментов с современными моделями мы обнаружили, что даже самые сильные модели достигают показателя успешности лишь немного превышающего 30%, что подчёркивает, что профессиональные долгосрочные рабочие процессы с графическим интерфейсом остаются крайне сложными для современных GUI-агентов. Дальнейший анализ показывает, что современным агентам трудно поддерживать согласованность долгосрочного рабочего процесса: они часто демонстрируют пропуск этапов рабочего процесса, распространение ошибок, дрейф цели и недостаточное понимание профессиональных программных сред. Наши результаты дают важное представление об ограничениях современных агентных систем и указывают на ключевые направления для следующего поколения исследований в области GUI-агентов.

English

Recent years have witnessed the rapid evolution of AI agents toward handling increasingly complex, real-world tasks. However, existing benchmarks rarely evaluate whether agents can operate graphical user interfaces to complete long-horizon, high-value professional workflows across diverse domains. Current GUI benchmarks still predominantly focus on general-purpose software, relatively simple applications, and short-horizon tasks, leaving it largely unknown whether modern agents can follow user instructions to autonomously operate domain-specific professional software and accomplish economically valuable work in an end-to-end manner. To bridge this gap, we introduce Workflow-GYM, a benchmark for long-horizon GUI tasks centered on professional domains and specialized software environments. Through extensive experiments on state-of-the-art models, we find that even the strongest models achieve only slightly above 30% success rates, highlighting that professional long-horizon GUI workflows remain highly challenging for current GUI agents. Further analysis reveals that current agents struggle to maintain long-horizon workflow consistency, frequently exhibiting workflow stage omission, error propagation, objective drift, and insufficient understanding of professional software environments. Our findings provide important insights into the limitations of current agent systems and suggest key directions for the next generation of GUI-agent research.