ChatPaper.aiChatPaper

WorldGUI: デスクトップGUIの包括的な自動化のためのダイナミックテスト

WorldGUI: Dynamic Testing for Comprehensive Desktop GUI Automation

February 12, 2025
著者: Henry Hengyuan Zhao, Difei Gao, Mike Zheng Shou
cs.AI

要旨

現在のGUIエージェントは、GUI要素のグラウンディングにおいて優れたパフォーマンスを達成しています。しかし、計画立案は依然として非常に困難であり、特に環境の初期状態に対する感度が高いです。具体的には、初期状態にわずかな違いがあると、例えば対象ソフトウェアが開かれていない、またはインターフェースがデフォルトの状態でないなどの場合、計画エラーが頻繁に発生します。この問題は実際のユーザシナリオで広く見られますが、既存のベンチマークでは評価できません。本論文では、実際のコンピュータユーザ間の相互作用をシミュレートするために、さまざまな初期状態でGUIタスクを設計する新しいGUIベンチマークであるWorldGUIを提案します。このベンチマークは、PowerPoint、VSCode、Adobe Acrobatなど10の人気ソフトウェアアプリケーションにわたる幅広いタスクをカバーしています。さらに、動的なGUI自動化タスクの課題に対処するために、批評メカニズムを活用した総合的なフレームワークであるGUI-Thinkerを提案します。実験結果は、GUI-ThinkerがWorldGUIタスクにおいてClaude-3.5(Computer Use)よりも成功率で14.9%優れていることを示しています。この改善は、批判的思考に基づく当社のフレームワークがGUI自動化を向上させる効果を裏付けています。
English
Current GUI agents have achieved outstanding performance in GUI element grounding. However, planning remains highly challenging, especially due to sensitivity to the initial state of the environment. Specifically, slight differences in the initial state-such as the target software not being open or the interface not being in its default state-often lead to planning errors. This issue is widespread in real user scenarios, but existing benchmarks fail to evaluate it. In this paper, we present WorldGUI, a novel GUI benchmark that designs GUI tasks with various initial states to simulate real computer-user interactions. The benchmark spans a wide range of tasks across 10 popular software applications, including PowerPoint, VSCode, and Adobe Acrobat. In addition, to address the challenges of dynamic GUI automation tasks, we propose GUI-Thinker, a holistic framework, leveraging a critique mechanism, that effectively manages the unpredictability and complexity of GUI interactions. Experimental results demonstrate that GUI-Thinker significantly outperforms Claude-3.5 (Computer Use) by 14.9% in success rate on WorldGUI tasks. This improvement underscores the effectiveness of our critical-thinking-based framework in enhancing GUI automation.

Summary

AI-Generated Summary

PDF274February 13, 2025