WorldGUI: Testes Dinâmicos para Automação Abrangente de Interface Gráfica de Usuário em Desktop
WorldGUI: Dynamic Testing for Comprehensive Desktop GUI Automation
February 12, 2025
Autores: Henry Hengyuan Zhao, Difei Gao, Mike Zheng Shou
cs.AI
Resumo
Os agentes de interface gráfica do usuário (GUI) atuais alcançaram desempenho excepcional na fundamentação de elementos de GUI. No entanto, o planejamento continua sendo altamente desafiador, especialmente devido à sensibilidade ao estado inicial do ambiente. Especificamente, pequenas diferenças no estado inicial—como o software alvo não estar aberto ou a interface não estar em seu estado padrão—frequentemente levam a erros de planejamento. Esse problema é generalizado em cenários reais de usuários, mas os benchmarks existentes não o avaliam. Neste artigo, apresentamos o WorldGUI, um novo benchmark de GUI que projeta tarefas de GUI com diversos estados iniciais para simular interações reais entre computador e usuário. O benchmark abrange uma ampla gama de tarefas em 10 aplicativos de software populares, incluindo PowerPoint, VSCode e Adobe Acrobat. Além disso, para enfrentar os desafios das tarefas de automação de GUI dinâmica, propomos o GUI-Thinker, um framework holístico que utiliza um mecanismo de crítica para gerenciar efetivamente a imprevisibilidade e a complexidade das interações de GUI. Os resultados experimentais demonstram que o GUI-Thinker supera significativamente o Claude-3.5 (Uso de Computador) em 14,9% na taxa de sucesso em tarefas do WorldGUI. Essa melhoria destaca a eficácia do nosso framework baseado em pensamento crítico para aprimorar a automação de GUI.
English
Current GUI agents have achieved outstanding performance in GUI element
grounding. However, planning remains highly challenging, especially due to
sensitivity to the initial state of the environment. Specifically, slight
differences in the initial state-such as the target software not being open or
the interface not being in its default state-often lead to planning errors.
This issue is widespread in real user scenarios, but existing benchmarks fail
to evaluate it. In this paper, we present WorldGUI, a novel GUI benchmark that
designs GUI tasks with various initial states to simulate real computer-user
interactions. The benchmark spans a wide range of tasks across 10 popular
software applications, including PowerPoint, VSCode, and Adobe Acrobat. In
addition, to address the challenges of dynamic GUI automation tasks, we propose
GUI-Thinker, a holistic framework, leveraging a critique mechanism, that
effectively manages the unpredictability and complexity of GUI interactions.
Experimental results demonstrate that GUI-Thinker significantly outperforms
Claude-3.5 (Computer Use) by 14.9% in success rate on WorldGUI tasks. This
improvement underscores the effectiveness of our critical-thinking-based
framework in enhancing GUI automation.Summary
AI-Generated Summary