MMBench-GUI: Иерархическая мультиплатформенная система оценки для агентов, работающих с графическим интерфейсом пользователя
MMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agents
July 25, 2025
Авторы: Xuehui Wang, Zhenyu Wu, JingJing Xie, Zichen Ding, Bowen Yang, Zehao Li, Zhaoyang Liu, Qingyun Li, Xuan Dong, Zhe Chen, Weiyun Wang, Xiangyu Zhao, Jixuan Chen, Haodong Duan, Tianbao Xie, Chenyu Yang, Shiqian Su, Yue Yu, Yuan Huang, Yiqian Liu, Xiao Zhang, Yanting Zhang, Xiangyu Yue, Weijie Su, Xizhou Zhu, Wei Shen, Jifeng Dai, Wenhai Wang
cs.AI
Аннотация
Мы представляем MMBench-GUI, иерархический бенчмарк для оценки агентов автоматизации графического интерфейса пользователя (GUI) на платформах Windows, macOS, Linux, iOS, Android и Web. Он включает четыре уровня: Понимание содержимого GUI, Привязка элементов, Автоматизация задач и Совместное выполнение задач, охватывая ключевые навыки для GUI-агентов. Кроме того, мы предлагаем новую метрику Efficiency-Quality Area (EQA) для оценки эффективности выполнения GUI-агентов в сценариях онлайн-автоматизации. С помощью MMBench-GUI мы выявили, что точная визуальная привязка является критическим фактором успешного выполнения задач, подчеркивая значительные преимущества модульных фреймворков, интегрирующих специализированные модули привязки. Более того, для достижения надежной автоматизации GUI агент требует сильных способностей к планированию задач и обобщению на кросс-платформенном уровне, где долгосрочная память, широкое пространство действий и долгосрочное рассуждение играют ключевую роль. Важно отметить, что эффективность выполнения задач остается недостаточно изученным аспектом, и все модели демонстрируют значительную неэффективность, выполняя избыточные шаги даже при успешном завершении задач. Интеграция точной локализации, эффективного планирования и стратегий раннего завершения необходима для обеспечения действительно эффективной и масштабируемой автоматизации GUI. Наш код бенчмарка, данные для оценки и среда выполнения будут доступны публично по адресу https://github.com/open-compass/MMBench-GUI.
English
We introduce MMBench-GUI, a hierarchical benchmark for evaluating GUI
automation agents across Windows, macOS, Linux, iOS, Android, and Web
platforms. It comprises four levels: GUI Content Understanding, Element
Grounding, Task Automation, and Task Collaboration, covering essential skills
for GUI agents. In addition, we propose a novel Efficiency-Quality Area (EQA)
metric to assess GUI agent execution efficiency in online automation scenarios.
Through MMBench-GUI, we identify accurate visual grounding as a critical
determinant of overall task success, emphasizing the substantial benefits of
modular frameworks that integrate specialized grounding modules. Furthermore,
to achieve reliable GUI automation, an agent requires strong task planning and
cross-platform generalization abilities, with long-context memory, a broad
action space, and long-term reasoning playing a critical role. More important,
task efficiency remains a critically underexplored dimension, and all models
suffer from substantial inefficiencies, with excessive redundant steps even
when tasks are ultimately completed. The integration of precise localization,
effective planning, and early stopping strategies is indispensable to enable
truly efficient and scalable GUI automation. Our benchmark code, evaluation
data, and running environment will be publicly available at
https://github.com/open-compass/MMBench-GUI.