MMBench-GUI: Framework Gerarchico di Valutazione Multi-Piattaforma per Agenti GUI
MMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agents
July 25, 2025
Autori: Xuehui Wang, Zhenyu Wu, JingJing Xie, Zichen Ding, Bowen Yang, Zehao Li, Zhaoyang Liu, Qingyun Li, Xuan Dong, Zhe Chen, Weiyun Wang, Xiangyu Zhao, Jixuan Chen, Haodong Duan, Tianbao Xie, Chenyu Yang, Shiqian Su, Yue Yu, Yuan Huang, Yiqian Liu, Xiao Zhang, Yanting Zhang, Xiangyu Yue, Weijie Su, Xizhou Zhu, Wei Shen, Jifeng Dai, Wenhai Wang
cs.AI
Abstract
Introduciamo MMBench-GUI, un benchmark gerarchico per valutare gli agenti di automazione GUI su piattaforme Windows, macOS, Linux, iOS, Android e Web. È composto da quattro livelli: Comprensione del Contenuto GUI, Grounding degli Elementi, Automazione dei Task e Collaborazione dei Task, coprendo le competenze essenziali per gli agenti GUI. Inoltre, proponiamo una nuova metrica chiamata Efficiency-Quality Area (EQA) per valutare l'efficienza di esecuzione degli agenti GUI negli scenari di automazione online. Attraverso MMBench-GUI, identifichiamo il grounding visivo accurato come un determinante critico per il successo complessivo dei task, sottolineando i sostanziali benefici dei framework modulari che integrano moduli di grounding specializzati. Inoltre, per ottenere un'automazione GUI affidabile, un agente richiede forti capacità di pianificazione dei task e generalizzazione cross-piattaforma, con memoria a lungo contesto, un ampio spazio di azione e ragionamento a lungo termine che svolgono un ruolo cruciale. Ancora più importante, l'efficienza dei task rimane una dimensione criticamente poco esplorata, e tutti i modelli soffrono di sostanziali inefficienze, con passaggi ridondanti eccessivi anche quando i task vengono completati. L'integrazione di localizzazione precisa, pianificazione efficace e strategie di early stopping è indispensabile per abilitare un'automazione GUI veramente efficiente e scalabile. Il nostro codice di benchmark, i dati di valutazione e l'ambiente di esecuzione saranno pubblicamente disponibili all'indirizzo https://github.com/open-compass/MMBench-GUI.
English
We introduce MMBench-GUI, a hierarchical benchmark for evaluating GUI
automation agents across Windows, macOS, Linux, iOS, Android, and Web
platforms. It comprises four levels: GUI Content Understanding, Element
Grounding, Task Automation, and Task Collaboration, covering essential skills
for GUI agents. In addition, we propose a novel Efficiency-Quality Area (EQA)
metric to assess GUI agent execution efficiency in online automation scenarios.
Through MMBench-GUI, we identify accurate visual grounding as a critical
determinant of overall task success, emphasizing the substantial benefits of
modular frameworks that integrate specialized grounding modules. Furthermore,
to achieve reliable GUI automation, an agent requires strong task planning and
cross-platform generalization abilities, with long-context memory, a broad
action space, and long-term reasoning playing a critical role. More important,
task efficiency remains a critically underexplored dimension, and all models
suffer from substantial inefficiencies, with excessive redundant steps even
when tasks are ultimately completed. The integration of precise localization,
effective planning, and early stopping strategies is indispensable to enable
truly efficient and scalable GUI automation. Our benchmark code, evaluation
data, and running environment will be publicly available at
https://github.com/open-compass/MMBench-GUI.