MMBench-GUI: Hierarchisches Multi-Plattform-Bewertungsframework für GUI-Agenten

Zusammenfassung

Wir stellen MMBench-GUI vor, einen hierarchischen Benchmark zur Bewertung von GUI-Automatisierungsagenten über Windows, macOS, Linux, iOS, Android und Web-Plattformen hinweg. Er umfasst vier Ebenen: GUI-Inhaltsverständnis, Elementverankerung, Aufgabenautomatisierung und Aufgabenkollaboration, die wesentliche Fähigkeiten für GUI-Agenten abdecken. Zusätzlich schlagen wir eine neuartige Effizienz-Qualitäts-Fläche (EQA) als Metrik vor, um die Ausführungseffizienz von GUI-Agenten in Online-Automatisierungsszenarien zu bewerten. Durch MMBench-GUI identifizieren wir eine präzise visuelle Verankerung als entscheidenden Faktor für den Gesamterfolg von Aufgaben und betonen die erheblichen Vorteile modularer Frameworks, die spezialisierte Verankerungsmodule integrieren. Darüber hinaus benötigt ein Agent für zuverlässige GUI-Automatisierung starke Fähigkeiten in der Aufgabenplanung und plattformübergreifenden Generalisierung, wobei Langzeitgedächtnis, ein breiter Aktionsraum und langfristiges Schlussfolgern eine entscheidende Rolle spielen. Noch wichtiger ist, dass die Aufgabeneffizienz eine kritisch unerforschte Dimension bleibt, und alle Modelle leiden unter erheblichen Ineffizienzen, mit übermäßig redundanten Schritten, selbst wenn Aufgaben letztendlich abgeschlossen werden. Die Integration von präziser Lokalisierung, effektiver Planung und frühen Abbruchstrategien ist unerlässlich, um wirklich effiziente und skalierbare GUI-Automatisierung zu ermöglichen. Unser Benchmark-Code, Evaluationsdaten und Laufzeitumgebung werden öffentlich unter https://github.com/open-compass/MMBench-GUI verfügbar sein.

English

We introduce MMBench-GUI, a hierarchical benchmark for evaluating GUI automation agents across Windows, macOS, Linux, iOS, Android, and Web platforms. It comprises four levels: GUI Content Understanding, Element Grounding, Task Automation, and Task Collaboration, covering essential skills for GUI agents. In addition, we propose a novel Efficiency-Quality Area (EQA) metric to assess GUI agent execution efficiency in online automation scenarios. Through MMBench-GUI, we identify accurate visual grounding as a critical determinant of overall task success, emphasizing the substantial benefits of modular frameworks that integrate specialized grounding modules. Furthermore, to achieve reliable GUI automation, an agent requires strong task planning and cross-platform generalization abilities, with long-context memory, a broad action space, and long-term reasoning playing a critical role. More important, task efficiency remains a critically underexplored dimension, and all models suffer from substantial inefficiencies, with excessive redundant steps even when tasks are ultimately completed. The integration of precise localization, effective planning, and early stopping strategies is indispensable to enable truly efficient and scalable GUI automation. Our benchmark code, evaluation data, and running environment will be publicly available at https://github.com/open-compass/MMBench-GUI.