Workflow-GYM : Vers une évaluation à long horizon des tâches agentiques d'utilisation d'ordinateur dans des domaines professionnels réels

Résumé

Ces dernières années ont vu l'évolution rapide des agents d'IA vers la gestion de tâches de plus en plus complexes et réalistes. Cependant, les benchmarks existants évaluent rarement la capacité des agents à utiliser des interfaces graphiques pour accomplir des flux de travail professionnels de longue durée et à haute valeur ajoutée dans divers domaines. Les benchmarks actuels pour les interfaces graphiques se concentrent encore principalement sur des logiciels à usage général, des applications relativement simples et des tâches de courte durée, ce qui laisse largement inconnue la capacité des agents modernes à suivre des instructions utilisateur pour opérer de manière autonome des logiciels professionnels spécifiques à un domaine et accomplir un travail économiquement précieux de bout en bout. Pour combler cette lacune, nous présentons Workflow-GYM, un benchmark pour les tâches d'interface graphique à long terme centré sur des domaines professionnels et des environnements logiciels spécialisés. Grâce à des expériences approfondies sur des modèles de pointe, nous constatons que même les modèles les plus performants n'atteignent qu'un peu plus de 30 % de taux de réussite, soulignant que les flux de travail professionnels à long terme sur interface graphique restent extrêmement difficiles pour les agents GUI actuels. Une analyse plus approfondie révèle que les agents actuels peinent à maintenir la cohérence des flux de travail à long terme, présentant fréquemment des omissions d'étapes, une propagation d'erreurs, une dérive d'objectif et une compréhension insuffisante des environnements logiciels professionnels. Nos résultats fournissent des perspectives importantes sur les limites des systèmes d'agents actuels et suggèrent des orientations clés pour la prochaine génération de recherche sur les agents GUI.

English

Recent years have witnessed the rapid evolution of AI agents toward handling increasingly complex, real-world tasks. However, existing benchmarks rarely evaluate whether agents can operate graphical user interfaces to complete long-horizon, high-value professional workflows across diverse domains. Current GUI benchmarks still predominantly focus on general-purpose software, relatively simple applications, and short-horizon tasks, leaving it largely unknown whether modern agents can follow user instructions to autonomously operate domain-specific professional software and accomplish economically valuable work in an end-to-end manner. To bridge this gap, we introduce Workflow-GYM, a benchmark for long-horizon GUI tasks centered on professional domains and specialized software environments. Through extensive experiments on state-of-the-art models, we find that even the strongest models achieve only slightly above 30% success rates, highlighting that professional long-horizon GUI workflows remain highly challenging for current GUI agents. Further analysis reveals that current agents struggle to maintain long-horizon workflow consistency, frequently exhibiting workflow stage omission, error propagation, objective drift, and insufficient understanding of professional software environments. Our findings provide important insights into the limitations of current agent systems and suggest key directions for the next generation of GUI-agent research.