WorldGUI: Pruebas Dinámicas para Automatización Integral de Interfaces Gráficas de Usuario en Escritorio

Resumen

Los agentes GUI actuales han logrado un rendimiento sobresaliente en la fundamentación de elementos GUI. Sin embargo, la planificación sigue siendo altamente desafiante, especialmente debido a la sensibilidad al estado inicial del entorno. Específicamente, pequeñas diferencias en el estado inicial, como el software objetivo no estar abierto o la interfaz no estar en su estado predeterminado, a menudo conducen a errores de planificación. Este problema es común en escenarios de usuarios reales, pero los bancos de pruebas existentes no logran evaluarlo. En este documento, presentamos WorldGUI, un nuevo banco de pruebas GUI que diseña tareas GUI con varios estados iniciales para simular interacciones reales entre computadoras y usuarios. El banco de pruebas abarca una amplia gama de tareas en 10 aplicaciones de software populares, incluyendo PowerPoint, VSCode y Adobe Acrobat. Además, para abordar los desafíos de las tareas de automatización GUI dinámicas, proponemos GUI-Thinker, un marco holístico que aprovecha un mecanismo de crítica para gestionar de manera efectiva la imprevisibilidad y complejidad de las interacciones GUI. Los resultados experimentales demuestran que GUI-Thinker supera significativamente a Claude-3.5 (Uso de Computadora) en un 14.9% en la tasa de éxito en las tareas de WorldGUI. Esta mejora subraya la efectividad de nuestro marco basado en el pensamiento crítico para mejorar la automatización GUI.

English

Current GUI agents have achieved outstanding performance in GUI element grounding. However, planning remains highly challenging, especially due to sensitivity to the initial state of the environment. Specifically, slight differences in the initial state-such as the target software not being open or the interface not being in its default state-often lead to planning errors. This issue is widespread in real user scenarios, but existing benchmarks fail to evaluate it. In this paper, we present WorldGUI, a novel GUI benchmark that designs GUI tasks with various initial states to simulate real computer-user interactions. The benchmark spans a wide range of tasks across 10 popular software applications, including PowerPoint, VSCode, and Adobe Acrobat. In addition, to address the challenges of dynamic GUI automation tasks, we propose GUI-Thinker, a holistic framework, leveraging a critique mechanism, that effectively manages the unpredictability and complexity of GUI interactions. Experimental results demonstrate that GUI-Thinker significantly outperforms Claude-3.5 (Computer Use) by 14.9% in success rate on WorldGUI tasks. This improvement underscores the effectiveness of our critical-thinking-based framework in enhancing GUI automation.

WorldGUI: Pruebas Dinámicas para Automatización Integral de Interfaces Gráficas de Usuario en Escritorio

WorldGUI: Dynamic Testing for Comprehensive Desktop GUI Automation

Resumen

Support