Workflow-GYM: Rumo à Avaliação de Longo Horizonte de Tarefas Agentivas de Uso de Computador em Campos Profissionais do Mundo Real

Resumo

Nos últimos anos, testemunhou-se a rápida evolução dos agentes de IA no sentido de lidar com tarefas cada vez mais complexas e do mundo real. No entanto, os benchmarks existentes raramente avaliam se os agentes conseguem operar interfaces gráficas do usuário para completar fluxos de trabalho profissionais de alto valor e longo horizonte em domínios diversos. Os benchmarks atuais de GUI ainda se concentram predominantemente em software de uso geral, aplicações relativamente simples e tarefas de curto horizonte, deixando em grande parte desconhecido se os agentes modernos conseguem seguir instruções do usuário para operar de forma autônoma softwares profissionais específicos de domínio e realizar trabalhos economicamente valiosos de ponta a ponta. Para preencher essa lacuna, apresentamos o Workflow-GYM, um benchmark para tarefas de GUI de longo horizonte centradas em domínios profissionais e ambientes de software especializados. Por meio de extensos experimentos com modelos de última geração, descobrimos que mesmo os modelos mais fortes alcançam taxas de sucesso ligeiramente acima de 30%, destacando que fluxos de trabalho profissionais de GUI de longo horizonte permanecem altamente desafiadores para os agentes de GUI atuais. Análises adicionais revelam que os agentes atuais têm dificuldade em manter a consistência do fluxo de trabalho de longo horizonte, frequentemente exibindo omissão de estágios do fluxo de trabalho, propagação de erros, desvio de objetivo e compreensão insuficiente dos ambientes de software profissional. Nossas descobertas fornecem insights importantes sobre as limitações dos sistemas de agentes atuais e sugerem direções-chave para a próxima geração de pesquisa em agentes GUI.

English

Recent years have witnessed the rapid evolution of AI agents toward handling increasingly complex, real-world tasks. However, existing benchmarks rarely evaluate whether agents can operate graphical user interfaces to complete long-horizon, high-value professional workflows across diverse domains. Current GUI benchmarks still predominantly focus on general-purpose software, relatively simple applications, and short-horizon tasks, leaving it largely unknown whether modern agents can follow user instructions to autonomously operate domain-specific professional software and accomplish economically valuable work in an end-to-end manner. To bridge this gap, we introduce Workflow-GYM, a benchmark for long-horizon GUI tasks centered on professional domains and specialized software environments. Through extensive experiments on state-of-the-art models, we find that even the strongest models achieve only slightly above 30% success rates, highlighting that professional long-horizon GUI workflows remain highly challenging for current GUI agents. Further analysis reveals that current agents struggle to maintain long-horizon workflow consistency, frequently exhibiting workflow stage omission, error propagation, objective drift, and insufficient understanding of professional software environments. Our findings provide important insights into the limitations of current agent systems and suggest key directions for the next generation of GUI-agent research.