MMBench-GUI: GUIエージェントのための階層型マルチプラットフォーム評価フレームワーク
MMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agents
July 25, 2025
著者: Xuehui Wang, Zhenyu Wu, JingJing Xie, Zichen Ding, Bowen Yang, Zehao Li, Zhaoyang Liu, Qingyun Li, Xuan Dong, Zhe Chen, Weiyun Wang, Xiangyu Zhao, Jixuan Chen, Haodong Duan, Tianbao Xie, Chenyu Yang, Shiqian Su, Yue Yu, Yuan Huang, Yiqian Liu, Xiao Zhang, Yanting Zhang, Xiangyu Yue, Weijie Su, Xizhou Zhu, Wei Shen, Jifeng Dai, Wenhai Wang
cs.AI
要旨
本論文では、Windows、macOS、Linux、iOS、Android、およびWebプラットフォームにわたるGUI自動化エージェントを評価するための階層型ベンチマークであるMMBench-GUIを紹介する。このベンチマークは、GUIコンテンツ理解、要素グラウンディング、タスク自動化、およびタスク協調の4つのレベルで構成され、GUIエージェントに必要な基本的なスキルを網羅している。さらに、オンライン自動化シナリオにおけるGUIエージェントの実行効率を評価するための新規の効率-品質面積(EQA)メトリックを提案する。MMBench-GUIを通じて、正確な視覚的グラウンディングが全体的なタスク成功の重要な決定要因であることを明らかにし、専門的なグラウンディングモジュールを統合したモジュール型フレームワークの大きな利点を強調する。さらに、信頼性の高いGUI自動化を実現するためには、エージェントが強力なタスク計画とクロスプラットフォーム汎化能力を備える必要があり、長文脈メモリ、広範なアクション空間、および長期的推論が重要な役割を果たす。特に、タスク効率は未だに十分に検討されていない次元であり、すべてのモデルが大幅な非効率性に悩まされており、タスクが最終的に完了した場合でも過剰な冗長なステップが存在する。真に効率的でスケーラブルなGUI自動化を実現するためには、正確な位置特定、効果的な計画、および早期停止戦略の統合が不可欠である。我々のベンチマークコード、評価データ、および実行環境は、https://github.com/open-compass/MMBench-GUI で公開される予定である。
English
We introduce MMBench-GUI, a hierarchical benchmark for evaluating GUI
automation agents across Windows, macOS, Linux, iOS, Android, and Web
platforms. It comprises four levels: GUI Content Understanding, Element
Grounding, Task Automation, and Task Collaboration, covering essential skills
for GUI agents. In addition, we propose a novel Efficiency-Quality Area (EQA)
metric to assess GUI agent execution efficiency in online automation scenarios.
Through MMBench-GUI, we identify accurate visual grounding as a critical
determinant of overall task success, emphasizing the substantial benefits of
modular frameworks that integrate specialized grounding modules. Furthermore,
to achieve reliable GUI automation, an agent requires strong task planning and
cross-platform generalization abilities, with long-context memory, a broad
action space, and long-term reasoning playing a critical role. More important,
task efficiency remains a critically underexplored dimension, and all models
suffer from substantial inefficiencies, with excessive redundant steps even
when tasks are ultimately completed. The integration of precise localization,
effective planning, and early stopping strategies is indispensable to enable
truly efficient and scalable GUI automation. Our benchmark code, evaluation
data, and running environment will be publicly available at
https://github.com/open-compass/MMBench-GUI.