WorldGUI: Pruebas Dinámicas para Automatización Integral de Interfaces Gráficas de Usuario en Escritorio
WorldGUI: Dynamic Testing for Comprehensive Desktop GUI Automation
February 12, 2025
Autores: Henry Hengyuan Zhao, Difei Gao, Mike Zheng Shou
cs.AI
Resumen
Los agentes GUI actuales han logrado un rendimiento sobresaliente en la fundamentación de elementos GUI. Sin embargo, la planificación sigue siendo altamente desafiante, especialmente debido a la sensibilidad al estado inicial del entorno. Específicamente, pequeñas diferencias en el estado inicial, como el software objetivo no estar abierto o la interfaz no estar en su estado predeterminado, a menudo conducen a errores de planificación. Este problema es común en escenarios de usuarios reales, pero los bancos de pruebas existentes no logran evaluarlo. En este documento, presentamos WorldGUI, un nuevo banco de pruebas GUI que diseña tareas GUI con varios estados iniciales para simular interacciones reales entre computadoras y usuarios. El banco de pruebas abarca una amplia gama de tareas en 10 aplicaciones de software populares, incluyendo PowerPoint, VSCode y Adobe Acrobat. Además, para abordar los desafíos de las tareas de automatización GUI dinámicas, proponemos GUI-Thinker, un marco holístico que aprovecha un mecanismo de crítica para gestionar de manera efectiva la imprevisibilidad y complejidad de las interacciones GUI. Los resultados experimentales demuestran que GUI-Thinker supera significativamente a Claude-3.5 (Uso de Computadora) en un 14.9% en la tasa de éxito en las tareas de WorldGUI. Esta mejora subraya la efectividad de nuestro marco basado en el pensamiento crítico para mejorar la automatización GUI.
English
Current GUI agents have achieved outstanding performance in GUI element
grounding. However, planning remains highly challenging, especially due to
sensitivity to the initial state of the environment. Specifically, slight
differences in the initial state-such as the target software not being open or
the interface not being in its default state-often lead to planning errors.
This issue is widespread in real user scenarios, but existing benchmarks fail
to evaluate it. In this paper, we present WorldGUI, a novel GUI benchmark that
designs GUI tasks with various initial states to simulate real computer-user
interactions. The benchmark spans a wide range of tasks across 10 popular
software applications, including PowerPoint, VSCode, and Adobe Acrobat. In
addition, to address the challenges of dynamic GUI automation tasks, we propose
GUI-Thinker, a holistic framework, leveraging a critique mechanism, that
effectively manages the unpredictability and complexity of GUI interactions.
Experimental results demonstrate that GUI-Thinker significantly outperforms
Claude-3.5 (Computer Use) by 14.9% in success rate on WorldGUI tasks. This
improvement underscores the effectiveness of our critical-thinking-based
framework in enhancing GUI automation.Summary
AI-Generated Summary