ChatPaper.aiChatPaper

MMBench-GUI: GUIエージェントのための階層型マルチプラットフォーム評価フレームワーク

MMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agents

July 25, 2025
著者: Xuehui Wang, Zhenyu Wu, JingJing Xie, Zichen Ding, Bowen Yang, Zehao Li, Zhaoyang Liu, Qingyun Li, Xuan Dong, Zhe Chen, Weiyun Wang, Xiangyu Zhao, Jixuan Chen, Haodong Duan, Tianbao Xie, Chenyu Yang, Shiqian Su, Yue Yu, Yuan Huang, Yiqian Liu, Xiao Zhang, Yanting Zhang, Xiangyu Yue, Weijie Su, Xizhou Zhu, Wei Shen, Jifeng Dai, Wenhai Wang
cs.AI

要旨

本論文では、Windows、macOS、Linux、iOS、Android、およびWebプラットフォームにわたるGUI自動化エージェントを評価するための階層型ベンチマークであるMMBench-GUIを紹介する。このベンチマークは、GUIコンテンツ理解、要素グラウンディング、タスク自動化、およびタスク協調の4つのレベルで構成され、GUIエージェントに必要な基本的なスキルを網羅している。さらに、オンライン自動化シナリオにおけるGUIエージェントの実行効率を評価するための新規の効率-品質面積(EQA)メトリックを提案する。MMBench-GUIを通じて、正確な視覚的グラウンディングが全体的なタスク成功の重要な決定要因であることを明らかにし、専門的なグラウンディングモジュールを統合したモジュール型フレームワークの大きな利点を強調する。さらに、信頼性の高いGUI自動化を実現するためには、エージェントが強力なタスク計画とクロスプラットフォーム汎化能力を備える必要があり、長文脈メモリ、広範なアクション空間、および長期的推論が重要な役割を果たす。特に、タスク効率は未だに十分に検討されていない次元であり、すべてのモデルが大幅な非効率性に悩まされており、タスクが最終的に完了した場合でも過剰な冗長なステップが存在する。真に効率的でスケーラブルなGUI自動化を実現するためには、正確な位置特定、効果的な計画、および早期停止戦略の統合が不可欠である。我々のベンチマークコード、評価データ、および実行環境は、https://github.com/open-compass/MMBench-GUI で公開される予定である。
English
We introduce MMBench-GUI, a hierarchical benchmark for evaluating GUI automation agents across Windows, macOS, Linux, iOS, Android, and Web platforms. It comprises four levels: GUI Content Understanding, Element Grounding, Task Automation, and Task Collaboration, covering essential skills for GUI agents. In addition, we propose a novel Efficiency-Quality Area (EQA) metric to assess GUI agent execution efficiency in online automation scenarios. Through MMBench-GUI, we identify accurate visual grounding as a critical determinant of overall task success, emphasizing the substantial benefits of modular frameworks that integrate specialized grounding modules. Furthermore, to achieve reliable GUI automation, an agent requires strong task planning and cross-platform generalization abilities, with long-context memory, a broad action space, and long-term reasoning playing a critical role. More important, task efficiency remains a critically underexplored dimension, and all models suffer from substantial inefficiencies, with excessive redundant steps even when tasks are ultimately completed. The integration of precise localization, effective planning, and early stopping strategies is indispensable to enable truly efficient and scalable GUI automation. Our benchmark code, evaluation data, and running environment will be publicly available at https://github.com/open-compass/MMBench-GUI.
PDF262July 28, 2025