MMBench-GUI : Cadre d'évaluation hiérarchique multi-plateforme pour les agents d'interface graphique
MMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agents
July 25, 2025
papers.authors: Xuehui Wang, Zhenyu Wu, JingJing Xie, Zichen Ding, Bowen Yang, Zehao Li, Zhaoyang Liu, Qingyun Li, Xuan Dong, Zhe Chen, Weiyun Wang, Xiangyu Zhao, Jixuan Chen, Haodong Duan, Tianbao Xie, Chenyu Yang, Shiqian Su, Yue Yu, Yuan Huang, Yiqian Liu, Xiao Zhang, Yanting Zhang, Xiangyu Yue, Weijie Su, Xizhou Zhu, Wei Shen, Jifeng Dai, Wenhai Wang
cs.AI
papers.abstract
Nous présentons MMBench-GUI, un benchmark hiérarchique pour évaluer les agents d’automatisation d’interfaces graphiques (GUI) sur les plateformes Windows, macOS, Linux, iOS, Android et Web. Il se compose de quatre niveaux : Compréhension du contenu de l’interface, Ancrage des éléments, Automatisation des tâches et Collaboration des tâches, couvrant les compétences essentielles pour les agents GUI. En outre, nous proposons une nouvelle métrique, l’Efficiency-Quality Area (EQA), pour évaluer l’efficacité d’exécution des agents GUI dans des scénarios d’automatisation en ligne. Grâce à MMBench-GUI, nous identifions l’ancrage visuel précis comme un déterminant critique du succès global des tâches, soulignant les avantages substantiels des frameworks modulaires intégrant des modules spécialisés d’ancrage. De plus, pour parvenir à une automatisation fiable des GUI, un agent nécessite de solides capacités de planification des tâches et de généralisation multiplateforme, avec une mémoire à long contexte, un large espace d’actions et un raisonnement à long terme jouant un rôle crucial. Plus important encore, l’efficacité des tâches reste une dimension largement sous-explorée, et tous les modèles souffrent d’inefficacités substantielles, avec des étapes redondantes excessives même lorsque les tâches sont finalement accomplies. L’intégration d’une localisation précise, d’une planification efficace et de stratégies d’arrêt précoce est indispensable pour permettre une automatisation des GUI véritablement efficace et évolutive. Notre code de benchmark, les données d’évaluation et l’environnement d’exécution seront disponibles publiquement à l’adresse https://github.com/open-compass/MMBench-GUI.
English
We introduce MMBench-GUI, a hierarchical benchmark for evaluating GUI
automation agents across Windows, macOS, Linux, iOS, Android, and Web
platforms. It comprises four levels: GUI Content Understanding, Element
Grounding, Task Automation, and Task Collaboration, covering essential skills
for GUI agents. In addition, we propose a novel Efficiency-Quality Area (EQA)
metric to assess GUI agent execution efficiency in online automation scenarios.
Through MMBench-GUI, we identify accurate visual grounding as a critical
determinant of overall task success, emphasizing the substantial benefits of
modular frameworks that integrate specialized grounding modules. Furthermore,
to achieve reliable GUI automation, an agent requires strong task planning and
cross-platform generalization abilities, with long-context memory, a broad
action space, and long-term reasoning playing a critical role. More important,
task efficiency remains a critically underexplored dimension, and all models
suffer from substantial inefficiencies, with excessive redundant steps even
when tasks are ultimately completed. The integration of precise localization,
effective planning, and early stopping strategies is indispensable to enable
truly efficient and scalable GUI automation. Our benchmark code, evaluation
data, and running environment will be publicly available at
https://github.com/open-compass/MMBench-GUI.