MMBench-GUI: Estrutura Hierárquica de Avaliação Multiplataforma para Agentes de Interface Gráfica

Resumo

Apresentamos o MMBench-GUI, um benchmark hierárquico para avaliar agentes de automação de GUI em plataformas Windows, macOS, Linux, iOS, Android e Web. Ele compreende quatro níveis: Compreensão de Conteúdo de GUI, Fundamentação de Elementos, Automação de Tarefas e Colaboração em Tarefas, abrangendo habilidades essenciais para agentes de GUI. Além disso, propomos uma nova métrica chamada Área de Eficiência-Qualidade (EQA) para avaliar a eficiência de execução de agentes de GUI em cenários de automação online. Por meio do MMBench-GUI, identificamos a fundamentação visual precisa como um determinante crítico para o sucesso geral das tarefas, destacando os benefícios substanciais de frameworks modulares que integram módulos especializados de fundamentação. Além disso, para alcançar uma automação de GUI confiável, um agente requer fortes habilidades de planejamento de tarefas e generalização entre plataformas, com memória de contexto longo, um amplo espaço de ações e raciocínio de longo prazo desempenhando um papel crucial. Mais importante ainda, a eficiência das tarefas permanece uma dimensão criticamente subexplorada, e todos os modelos sofrem com ineficiências substanciais, com passos redundantes excessivos, mesmo quando as tarefas são finalmente concluídas. A integração de localização precisa, planejamento eficaz e estratégias de parada antecipada é indispensável para permitir uma automação de GUI verdadeiramente eficiente e escalável. Nosso código de benchmark, dados de avaliação e ambiente de execução estarão publicamente disponíveis em https://github.com/open-compass/MMBench-GUI.

English

We introduce MMBench-GUI, a hierarchical benchmark for evaluating GUI automation agents across Windows, macOS, Linux, iOS, Android, and Web platforms. It comprises four levels: GUI Content Understanding, Element Grounding, Task Automation, and Task Collaboration, covering essential skills for GUI agents. In addition, we propose a novel Efficiency-Quality Area (EQA) metric to assess GUI agent execution efficiency in online automation scenarios. Through MMBench-GUI, we identify accurate visual grounding as a critical determinant of overall task success, emphasizing the substantial benefits of modular frameworks that integrate specialized grounding modules. Furthermore, to achieve reliable GUI automation, an agent requires strong task planning and cross-platform generalization abilities, with long-context memory, a broad action space, and long-term reasoning playing a critical role. More important, task efficiency remains a critically underexplored dimension, and all models suffer from substantial inefficiencies, with excessive redundant steps even when tasks are ultimately completed. The integration of precise localization, effective planning, and early stopping strategies is indispensable to enable truly efficient and scalable GUI automation. Our benchmark code, evaluation data, and running environment will be publicly available at https://github.com/open-compass/MMBench-GUI.

MMBench-GUI: Estrutura Hierárquica de Avaliação Multiplataforma para Agentes de Interface Gráfica

MMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agents

Resumo

Support