WorldGUI: Dynamische Testen voor Uitgebreide Automatisering van Desktop GUI.
WorldGUI: Dynamic Testing for Comprehensive Desktop GUI Automation
February 12, 2025
Auteurs: Henry Hengyuan Zhao, Difei Gao, Mike Zheng Shou
cs.AI
Samenvatting
Huidige GUI-agenten hebben uitstekende prestaties behaald op het gebied van GUI-elementverankering. Echter, planning blijft zeer uitdagend, vooral vanwege de gevoeligheid voor de initiële toestand van de omgeving. Met name kleine verschillen in de initiële toestand - zoals de doelsoftware die niet geopend is of de interface die niet in de standaardtoestand verkeert - leiden vaak tot planningsfouten. Dit probleem is wijdverbreid in echte gebruikersscenario's, maar bestaande benchmarks falen in de evaluatie ervan. In dit artikel presenteren we WorldGUI, een nieuwe GUI-benchmark die GUI-taken ontwerpt met verschillende initiële toestanden om echte computer-gebruiker interacties te simuleren. De benchmark omvat een breed scala aan taken over 10 populaire softwaretoepassingen, waaronder PowerPoint, VSCode en Adobe Acrobat. Daarnaast stellen we, om de uitdagingen van dynamische GUI-automatiseringstaken aan te pakken, GUI-Thinker voor, een allesomvattend raamwerk dat een kritiekmechanisme benut om de onvoorspelbaarheid en complexiteit van GUI-interacties effectief te beheren. Experimentele resultaten tonen aan dat GUI-Thinker aanzienlijk beter presteert dan Claude-3.5 (Computergebruik) met een succespercentage van 14,9% op WorldGUI-taken. Deze verbetering benadrukt de effectiviteit van ons op kritisch denken gebaseerde raamwerk bij het verbeteren van GUI-automatisering.
English
Current GUI agents have achieved outstanding performance in GUI element
grounding. However, planning remains highly challenging, especially due to
sensitivity to the initial state of the environment. Specifically, slight
differences in the initial state-such as the target software not being open or
the interface not being in its default state-often lead to planning errors.
This issue is widespread in real user scenarios, but existing benchmarks fail
to evaluate it. In this paper, we present WorldGUI, a novel GUI benchmark that
designs GUI tasks with various initial states to simulate real computer-user
interactions. The benchmark spans a wide range of tasks across 10 popular
software applications, including PowerPoint, VSCode, and Adobe Acrobat. In
addition, to address the challenges of dynamic GUI automation tasks, we propose
GUI-Thinker, a holistic framework, leveraging a critique mechanism, that
effectively manages the unpredictability and complexity of GUI interactions.
Experimental results demonstrate that GUI-Thinker significantly outperforms
Claude-3.5 (Computer Use) by 14.9% in success rate on WorldGUI tasks. This
improvement underscores the effectiveness of our critical-thinking-based
framework in enhancing GUI automation.Summary
AI-Generated Summary