WorldGUI: Динамическое тестирование для комплексной автоматизации графического интерфейса рабочего стола.
WorldGUI: Dynamic Testing for Comprehensive Desktop GUI Automation
February 12, 2025
Авторы: Henry Hengyuan Zhao, Difei Gao, Mike Zheng Shou
cs.AI
Аннотация
Текущие агенты с графическим пользовательским интерфейсом (GUI) достигли выдающихся результатов в привязке к элементам GUI. Однако планирование остаётся чрезвычайно сложным, особенно из-за чувствительности к начальному состоянию окружения. Конкретно, даже незначительные различия в начальном состоянии, такие как незапущенное целевое программное обеспечение или интерфейс, не находящийся в состоянии по умолчанию, часто приводят к ошибкам в планировании. Эта проблема широко распространена в реальных сценариях использования пользователями, однако существующие бенчмарки не оценивают её. В данной статье мы представляем WorldGUI, новый бенчмарк GUI, который разрабатывает задачи GUI с различными начальными состояниями для имитации реального взаимодействия компьютера с пользователем. Бенчмарк охватывает широкий спектр задач по 10 популярным приложениям, включая PowerPoint, VSCode и Adobe Acrobat. Кроме того, для решения проблем динамических задач автоматизации GUI мы предлагаем GUI-Thinker, целостную платформу, использующую механизм критики, который эффективно управляет непредсказуемостью и сложностью взаимодействия с GUI. Экспериментальные результаты показывают, что GUI-Thinker значительно превосходит Claude-3.5 (Использование компьютера) на 14.9% по показателю успешности на задачах WorldGUI. Это улучшение подчёркивает эффективность нашей основанной на критическом мышлении платформы в улучшении автоматизации GUI.
English
Current GUI agents have achieved outstanding performance in GUI element
grounding. However, planning remains highly challenging, especially due to
sensitivity to the initial state of the environment. Specifically, slight
differences in the initial state-such as the target software not being open or
the interface not being in its default state-often lead to planning errors.
This issue is widespread in real user scenarios, but existing benchmarks fail
to evaluate it. In this paper, we present WorldGUI, a novel GUI benchmark that
designs GUI tasks with various initial states to simulate real computer-user
interactions. The benchmark spans a wide range of tasks across 10 popular
software applications, including PowerPoint, VSCode, and Adobe Acrobat. In
addition, to address the challenges of dynamic GUI automation tasks, we propose
GUI-Thinker, a holistic framework, leveraging a critique mechanism, that
effectively manages the unpredictability and complexity of GUI interactions.
Experimental results demonstrate that GUI-Thinker significantly outperforms
Claude-3.5 (Computer Use) by 14.9% in success rate on WorldGUI tasks. This
improvement underscores the effectiveness of our critical-thinking-based
framework in enhancing GUI automation.Summary
AI-Generated Summary