ChatPaper.aiChatPaper

MMBench-GUI: Marco de Evaluación Jerárquico Multiplataforma para Agentes de Interfaz Gráfica de Usuario

MMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agents

July 25, 2025
Autores: Xuehui Wang, Zhenyu Wu, JingJing Xie, Zichen Ding, Bowen Yang, Zehao Li, Zhaoyang Liu, Qingyun Li, Xuan Dong, Zhe Chen, Weiyun Wang, Xiangyu Zhao, Jixuan Chen, Haodong Duan, Tianbao Xie, Chenyu Yang, Shiqian Su, Yue Yu, Yuan Huang, Yiqian Liu, Xiao Zhang, Yanting Zhang, Xiangyu Yue, Weijie Su, Xizhou Zhu, Wei Shen, Jifeng Dai, Wenhai Wang
cs.AI

Resumen

Presentamos MMBench-GUI, un benchmark jerárquico para evaluar agentes de automatización de interfaces gráficas de usuario (GUI) en plataformas como Windows, macOS, Linux, iOS, Android y Web. Este benchmark consta de cuatro niveles: Comprensión del Contenido de la GUI, Fundamentación de Elementos, Automatización de Tareas y Colaboración en Tareas, cubriendo habilidades esenciales para los agentes de GUI. Además, proponemos una nueva métrica llamada Área de Eficiencia-Calidad (EQA, por sus siglas en inglés) para evaluar la eficiencia de ejecución de los agentes de GUI en escenarios de automatización en línea. A través de MMBench-GUI, identificamos que la fundamentación visual precisa es un determinante crítico para el éxito general de las tareas, destacando los beneficios sustanciales de los marcos modulares que integran módulos especializados de fundamentación. Asimismo, para lograr una automatización de GUI confiable, un agente requiere fuertes habilidades de planificación de tareas y generalización multiplataforma, donde la memoria de contexto largo, un amplio espacio de acciones y el razonamiento a largo plazo desempeñan un papel crucial. Más importante aún, la eficiencia en las tareas sigue siendo una dimensión críticamente subexplorada, y todos los modelos presentan ineficiencias sustanciales, con pasos redundantes excesivos incluso cuando las tareas se completan finalmente. La integración de localización precisa, planificación efectiva y estrategias de detención temprana es indispensable para habilitar una automatización de GUI verdaderamente eficiente y escalable. Nuestro código de benchmark, datos de evaluación y entorno de ejecución estarán disponibles públicamente en https://github.com/open-compass/MMBench-GUI.
English
We introduce MMBench-GUI, a hierarchical benchmark for evaluating GUI automation agents across Windows, macOS, Linux, iOS, Android, and Web platforms. It comprises four levels: GUI Content Understanding, Element Grounding, Task Automation, and Task Collaboration, covering essential skills for GUI agents. In addition, we propose a novel Efficiency-Quality Area (EQA) metric to assess GUI agent execution efficiency in online automation scenarios. Through MMBench-GUI, we identify accurate visual grounding as a critical determinant of overall task success, emphasizing the substantial benefits of modular frameworks that integrate specialized grounding modules. Furthermore, to achieve reliable GUI automation, an agent requires strong task planning and cross-platform generalization abilities, with long-context memory, a broad action space, and long-term reasoning playing a critical role. More important, task efficiency remains a critically underexplored dimension, and all models suffer from substantial inefficiencies, with excessive redundant steps even when tasks are ultimately completed. The integration of precise localization, effective planning, and early stopping strategies is indispensable to enable truly efficient and scalable GUI automation. Our benchmark code, evaluation data, and running environment will be publicly available at https://github.com/open-compass/MMBench-GUI.
PDF262July 28, 2025