Workflow-GYM: Hacia la evaluación de largo horizonte de tareas agénticas de uso de computadora en campos profesionales reales.

Resumen

En los últimos años, se ha observado una rápida evolución de los agentes de inteligencia artificial hacia el manejo de tareas complejas del mundo real. Sin embargo, los puntos de referencia existentes rara vez evalúan si los agentes pueden operar interfaces gráficas de usuario para completar flujos de trabajo profesionales de alto valor y largo plazo en diversos dominios. Los puntos de referencia actuales para interfaces gráficas de usuario (GUI) siguen centrándose predominantemente en software de propósito general, aplicaciones relativamente simples y tareas de corto plazo, lo que deja en gran parte desconocido si los agentes modernos pueden seguir instrucciones de usuarios para operar de forma autónoma software profesional específico de dominio y llevar a cabo trabajo económicamente valioso de extremo a extremo. Para abordar esta brecha, presentamos Workflow-GYM, un punto de referencia para tareas GUI de largo plazo centrado en dominios profesionales y entornos de software especializados. A través de extensos experimentos con modelos de vanguardia, encontramos que incluso los modelos más sólidos logran tasas de éxito ligeramente superiores al 30%, lo que resalta que los flujos de trabajo GUI profesionales de largo plazo siguen siendo muy desafiantes para los agentes GUI actuales. Análisis posteriores revelan que los agentes actuales tienen dificultades para mantener la consistencia en flujos de trabajo de largo plazo, exhibiendo con frecuencia omisión de etapas del flujo de trabajo, propagación de errores, deriva del objetivo y comprensión insuficiente de los entornos de software profesional. Nuestros hallazgos brindan información importante sobre las limitaciones de los sistemas de agentes actuales y sugieren direcciones clave para la próxima generación de investigación en agentes GUI.

English

Recent years have witnessed the rapid evolution of AI agents toward handling increasingly complex, real-world tasks. However, existing benchmarks rarely evaluate whether agents can operate graphical user interfaces to complete long-horizon, high-value professional workflows across diverse domains. Current GUI benchmarks still predominantly focus on general-purpose software, relatively simple applications, and short-horizon tasks, leaving it largely unknown whether modern agents can follow user instructions to autonomously operate domain-specific professional software and accomplish economically valuable work in an end-to-end manner. To bridge this gap, we introduce Workflow-GYM, a benchmark for long-horizon GUI tasks centered on professional domains and specialized software environments. Through extensive experiments on state-of-the-art models, we find that even the strongest models achieve only slightly above 30% success rates, highlighting that professional long-horizon GUI workflows remain highly challenging for current GUI agents. Further analysis reveals that current agents struggle to maintain long-horizon workflow consistency, frequently exhibiting workflow stage omission, error propagation, objective drift, and insufficient understanding of professional software environments. Our findings provide important insights into the limitations of current agent systems and suggest key directions for the next generation of GUI-agent research.