MMBench-GUI: Estrutura Hierárquica de Avaliação Multiplataforma para Agentes de Interface Gráfica
MMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agents
July 25, 2025
Autores: Xuehui Wang, Zhenyu Wu, JingJing Xie, Zichen Ding, Bowen Yang, Zehao Li, Zhaoyang Liu, Qingyun Li, Xuan Dong, Zhe Chen, Weiyun Wang, Xiangyu Zhao, Jixuan Chen, Haodong Duan, Tianbao Xie, Chenyu Yang, Shiqian Su, Yue Yu, Yuan Huang, Yiqian Liu, Xiao Zhang, Yanting Zhang, Xiangyu Yue, Weijie Su, Xizhou Zhu, Wei Shen, Jifeng Dai, Wenhai Wang
cs.AI
Resumo
Apresentamos o MMBench-GUI, um benchmark hierárquico para avaliar agentes de automação de GUI em plataformas Windows, macOS, Linux, iOS, Android e Web. Ele compreende quatro níveis: Compreensão de Conteúdo de GUI, Fundamentação de Elementos, Automação de Tarefas e Colaboração em Tarefas, abrangendo habilidades essenciais para agentes de GUI. Além disso, propomos uma nova métrica chamada Área de Eficiência-Qualidade (EQA) para avaliar a eficiência de execução de agentes de GUI em cenários de automação online. Por meio do MMBench-GUI, identificamos a fundamentação visual precisa como um determinante crítico para o sucesso geral das tarefas, destacando os benefícios substanciais de frameworks modulares que integram módulos especializados de fundamentação. Além disso, para alcançar uma automação de GUI confiável, um agente requer fortes habilidades de planejamento de tarefas e generalização entre plataformas, com memória de contexto longo, um amplo espaço de ações e raciocínio de longo prazo desempenhando um papel crucial. Mais importante ainda, a eficiência das tarefas permanece uma dimensão criticamente subexplorada, e todos os modelos sofrem com ineficiências substanciais, com passos redundantes excessivos, mesmo quando as tarefas são finalmente concluídas. A integração de localização precisa, planejamento eficaz e estratégias de parada antecipada é indispensável para permitir uma automação de GUI verdadeiramente eficiente e escalável. Nosso código de benchmark, dados de avaliação e ambiente de execução estarão publicamente disponíveis em https://github.com/open-compass/MMBench-GUI.
English
We introduce MMBench-GUI, a hierarchical benchmark for evaluating GUI
automation agents across Windows, macOS, Linux, iOS, Android, and Web
platforms. It comprises four levels: GUI Content Understanding, Element
Grounding, Task Automation, and Task Collaboration, covering essential skills
for GUI agents. In addition, we propose a novel Efficiency-Quality Area (EQA)
metric to assess GUI agent execution efficiency in online automation scenarios.
Through MMBench-GUI, we identify accurate visual grounding as a critical
determinant of overall task success, emphasizing the substantial benefits of
modular frameworks that integrate specialized grounding modules. Furthermore,
to achieve reliable GUI automation, an agent requires strong task planning and
cross-platform generalization abilities, with long-context memory, a broad
action space, and long-term reasoning playing a critical role. More important,
task efficiency remains a critically underexplored dimension, and all models
suffer from substantial inefficiencies, with excessive redundant steps even
when tasks are ultimately completed. The integration of precise localization,
effective planning, and early stopping strategies is indispensable to enable
truly efficient and scalable GUI automation. Our benchmark code, evaluation
data, and running environment will be publicly available at
https://github.com/open-compass/MMBench-GUI.