WorldGUI: Dynamisches Testen für umfassende Desktop-GUI-Automatisierung

papers.abstract

Aktuelle GUI-Agenten haben eine herausragende Leistung bei der Verankerung von GUI-Elementen erzielt. Die Planung bleibt jedoch äußerst herausfordernd, insbesondere aufgrund der Empfindlichkeit gegenüber dem Anfangszustand der Umgebung. Geringfügige Unterschiede im Anfangszustand - wie beispielsweise die Zielsoftware, die nicht geöffnet ist oder die Benutzeroberfläche, die sich nicht im Standardzustand befindet - führen oft zu Planungsfehlern. Dieses Problem ist in realen Benutzerszenarien weit verbreitet, aber bestehende Benchmarks versagen bei der Bewertung. In diesem Artikel präsentieren wir WorldGUI, einen neuen GUI-Benchmark, der GUI-Aufgaben mit verschiedenen Anfangszuständen entwirft, um reale Computer-Benutzerinteraktionen zu simulieren. Der Benchmark umfasst eine Vielzahl von Aufgaben in 10 beliebten Softwareanwendungen, darunter PowerPoint, VSCode und Adobe Acrobat. Darüber hinaus schlagen wir zur Bewältigung der Herausforderungen dynamischer GUI-Automatisierungsaufgaben GUI-Thinker vor, ein ganzheitliches Framework, das einen Kritikmechanismus nutzt, um die Unvorhersehbarkeit und Komplexität von GUI-Interaktionen effektiv zu bewältigen. Experimentelle Ergebnisse zeigen, dass GUI-Thinker den Erfolg bei WorldGUI-Aufgaben um 14,9% gegenüber Claude-3.5 (Computer Use) signifikant übertrifft. Diese Verbesserung unterstreicht die Wirksamkeit unseres auf kritischem Denken basierenden Frameworks bei der Verbesserung der GUI-Automatisierung.

English

Current GUI agents have achieved outstanding performance in GUI element grounding. However, planning remains highly challenging, especially due to sensitivity to the initial state of the environment. Specifically, slight differences in the initial state-such as the target software not being open or the interface not being in its default state-often lead to planning errors. This issue is widespread in real user scenarios, but existing benchmarks fail to evaluate it. In this paper, we present WorldGUI, a novel GUI benchmark that designs GUI tasks with various initial states to simulate real computer-user interactions. The benchmark spans a wide range of tasks across 10 popular software applications, including PowerPoint, VSCode, and Adobe Acrobat. In addition, to address the challenges of dynamic GUI automation tasks, we propose GUI-Thinker, a holistic framework, leveraging a critique mechanism, that effectively manages the unpredictability and complexity of GUI interactions. Experimental results demonstrate that GUI-Thinker significantly outperforms Claude-3.5 (Computer Use) by 14.9% in success rate on WorldGUI tasks. This improvement underscores the effectiveness of our critical-thinking-based framework in enhancing GUI automation.

WorldGUI: Dynamisches Testen für umfassende Desktop-GUI-Automatisierung

WorldGUI: Dynamic Testing for Comprehensive Desktop GUI Automation

papers.abstract

Support