WorldGUI : Test dynamique pour l'automatisation complète de l'interface utilisateur graphique (GUI) de bureau
WorldGUI: Dynamic Testing for Comprehensive Desktop GUI Automation
February 12, 2025
Auteurs: Henry Hengyuan Zhao, Difei Gao, Mike Zheng Shou
cs.AI
Résumé
Les agents GUI actuels ont atteint des performances exceptionnelles dans l'ancrage des éléments GUI. Cependant, la planification reste très difficile, notamment en raison de la sensibilité à l'état initial de l'environnement. En particulier, de légères différences dans l'état initial - telles que le logiciel cible n'étant pas ouvert ou l'interface n'étant pas dans son état par défaut - conduisent souvent à des erreurs de planification. Ce problème est répandu dans les scénarios d'utilisation réelle, mais les bancs d'essai existants échouent à l'évaluer. Dans cet article, nous présentons WorldGUI, un nouveau banc d'essai GUI qui conçoit des tâches GUI avec divers états initiaux pour simuler les interactions réelles entre l'ordinateur et l'utilisateur. Le banc d'essai couvre un large éventail de tâches dans 10 applications logicielles populaires, notamment PowerPoint, VSCode et Adobe Acrobat. De plus, pour relever les défis des tâches d'automatisation GUI dynamiques, nous proposons GUI-Thinker, un cadre holistique, exploitant un mécanisme de critique, qui gère efficacement l'imprévisibilité et la complexité des interactions GUI. Les résultats expérimentaux montrent que GUI-Thinker surpasse significativement Claude-3.5 (Utilisation de l'ordinateur) de 14,9% en taux de réussite sur les tâches WorldGUI. Cette amélioration souligne l'efficacité de notre cadre basé sur la pensée critique dans l'amélioration de l'automatisation GUI.
English
Current GUI agents have achieved outstanding performance in GUI element
grounding. However, planning remains highly challenging, especially due to
sensitivity to the initial state of the environment. Specifically, slight
differences in the initial state-such as the target software not being open or
the interface not being in its default state-often lead to planning errors.
This issue is widespread in real user scenarios, but existing benchmarks fail
to evaluate it. In this paper, we present WorldGUI, a novel GUI benchmark that
designs GUI tasks with various initial states to simulate real computer-user
interactions. The benchmark spans a wide range of tasks across 10 popular
software applications, including PowerPoint, VSCode, and Adobe Acrobat. In
addition, to address the challenges of dynamic GUI automation tasks, we propose
GUI-Thinker, a holistic framework, leveraging a critique mechanism, that
effectively manages the unpredictability and complexity of GUI interactions.
Experimental results demonstrate that GUI-Thinker significantly outperforms
Claude-3.5 (Computer Use) by 14.9% in success rate on WorldGUI tasks. This
improvement underscores the effectiveness of our critical-thinking-based
framework in enhancing GUI automation.Summary
AI-Generated Summary