MMBench-GUI: Hiërarchisch Multi-Platform Evaluatiekader voor GUI-Agenten
MMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agents
July 25, 2025
Auteurs: Xuehui Wang, Zhenyu Wu, JingJing Xie, Zichen Ding, Bowen Yang, Zehao Li, Zhaoyang Liu, Qingyun Li, Xuan Dong, Zhe Chen, Weiyun Wang, Xiangyu Zhao, Jixuan Chen, Haodong Duan, Tianbao Xie, Chenyu Yang, Shiqian Su, Yue Yu, Yuan Huang, Yiqian Liu, Xiao Zhang, Yanting Zhang, Xiangyu Yue, Weijie Su, Xizhou Zhu, Wei Shen, Jifeng Dai, Wenhai Wang
cs.AI
Samenvatting
We introduceren MMBench-GUI, een hiërarchische benchmark voor het evalueren van GUI-automatiseringagents op Windows, macOS, Linux, iOS, Android en webplatformen. Het bestaat uit vier niveaus: GUI-inhoudsbegrip, elementverankering, taakautomatisering en taaksamenwerking, die essentiële vaardigheden voor GUI-agents omvatten. Daarnaast stellen we een nieuwe Efficiency-Quality Area (EQA)-metriek voor om de uitvoeringsefficiëntie van GUI-agents in online automatiseringsscenario's te beoordelen. Via MMBench-GUI identificeren we nauwkeurige visuele verankering als een cruciale bepalende factor voor het algehele taken succes, waarbij we de aanzienlijke voordelen benadrukken van modulaire frameworks die gespecialiseerde verankeringsmodules integreren. Bovendien vereist een agent voor betrouwbare GUI-automatisering sterke taakplanning en cross-platform generalisatievermogens, waarbij langetermijngeheugen, een brede actieruimte en langetermijnredenering een cruciale rol spelen. Belangrijker nog, taakefficiëntie blijft een kritisch onderbelicht aspect, en alle modellen lijden onder aanzienlijke inefficiënties, met overmatige overbodige stappen, zelfs wanneer taken uiteindelijk worden voltooid. De integratie van precieze lokalisatie, effectieve planning en vroegtijdige stopstrategieën is onmisbaar om echt efficiënte en schaalbare GUI-automatisering mogelijk te maken. Onze benchmarkcode, evaluatiedata en uitvoeringsomgeving zullen publiekelijk beschikbaar zijn op https://github.com/open-compass/MMBench-GUI.
English
We introduce MMBench-GUI, a hierarchical benchmark for evaluating GUI
automation agents across Windows, macOS, Linux, iOS, Android, and Web
platforms. It comprises four levels: GUI Content Understanding, Element
Grounding, Task Automation, and Task Collaboration, covering essential skills
for GUI agents. In addition, we propose a novel Efficiency-Quality Area (EQA)
metric to assess GUI agent execution efficiency in online automation scenarios.
Through MMBench-GUI, we identify accurate visual grounding as a critical
determinant of overall task success, emphasizing the substantial benefits of
modular frameworks that integrate specialized grounding modules. Furthermore,
to achieve reliable GUI automation, an agent requires strong task planning and
cross-platform generalization abilities, with long-context memory, a broad
action space, and long-term reasoning playing a critical role. More important,
task efficiency remains a critically underexplored dimension, and all models
suffer from substantial inefficiencies, with excessive redundant steps even
when tasks are ultimately completed. The integration of precise localization,
effective planning, and early stopping strategies is indispensable to enable
truly efficient and scalable GUI automation. Our benchmark code, evaluation
data, and running environment will be publicly available at
https://github.com/open-compass/MMBench-GUI.