WorldGUI: Test dinamici per un'automazione completa dell'interfaccia utente desktop
WorldGUI: Dynamic Testing for Comprehensive Desktop GUI Automation
February 12, 2025
Autori: Henry Hengyuan Zhao, Difei Gao, Mike Zheng Shou
cs.AI
Abstract
Gli agenti GUI attuali hanno raggiunto prestazioni eccezionali nel grounding degli elementi GUI. Tuttavia, la pianificazione rimane estremamente impegnativa, specialmente a causa della sensibilità allo stato iniziale dell'ambiente. In particolare, piccole differenze nello stato iniziale, come ad esempio il software di destinazione che non è aperto o l'interfaccia che non si trova nello stato predefinito, portano spesso a errori di pianificazione. Questo problema è diffuso in scenari reali degli utenti, ma i benchmark esistenti non riescono a valutarlo. In questo articolo, presentiamo WorldGUI, un nuovo benchmark GUI che progetta compiti GUI con vari stati iniziali per simulare interazioni reali tra computer e utente. Il benchmark copre una vasta gamma di compiti in 10 applicazioni software popolari, tra cui PowerPoint, VSCode e Adobe Acrobat. Inoltre, per affrontare le sfide dei compiti dinamici di automazione GUI, proponiamo GUI-Thinker, un framework olistico che sfrutta un meccanismo di critica, che gestisce efficacemente l'imprevedibilità e la complessità delle interazioni GUI. I risultati sperimentali dimostrano che GUI-Thinker supera significativamente Claude-3.5 (Computer Use) del 14,9% nel tasso di successo nei compiti WorldGUI. Questo miglioramento sottolinea l'efficacia del nostro framework basato sul pensiero critico nel migliorare l'automazione GUI.
English
Current GUI agents have achieved outstanding performance in GUI element
grounding. However, planning remains highly challenging, especially due to
sensitivity to the initial state of the environment. Specifically, slight
differences in the initial state-such as the target software not being open or
the interface not being in its default state-often lead to planning errors.
This issue is widespread in real user scenarios, but existing benchmarks fail
to evaluate it. In this paper, we present WorldGUI, a novel GUI benchmark that
designs GUI tasks with various initial states to simulate real computer-user
interactions. The benchmark spans a wide range of tasks across 10 popular
software applications, including PowerPoint, VSCode, and Adobe Acrobat. In
addition, to address the challenges of dynamic GUI automation tasks, we propose
GUI-Thinker, a holistic framework, leveraging a critique mechanism, that
effectively manages the unpredictability and complexity of GUI interactions.
Experimental results demonstrate that GUI-Thinker significantly outperforms
Claude-3.5 (Computer Use) by 14.9% in success rate on WorldGUI tasks. This
improvement underscores the effectiveness of our critical-thinking-based
framework in enhancing GUI automation.Summary
AI-Generated Summary