MMBench-GUI: GUI 에이전트를 위한 계층적 다중 플랫폼 평가 프레임워크
MMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agents
July 25, 2025
저자: Xuehui Wang, Zhenyu Wu, JingJing Xie, Zichen Ding, Bowen Yang, Zehao Li, Zhaoyang Liu, Qingyun Li, Xuan Dong, Zhe Chen, Weiyun Wang, Xiangyu Zhao, Jixuan Chen, Haodong Duan, Tianbao Xie, Chenyu Yang, Shiqian Su, Yue Yu, Yuan Huang, Yiqian Liu, Xiao Zhang, Yanting Zhang, Xiangyu Yue, Weijie Su, Xizhou Zhu, Wei Shen, Jifeng Dai, Wenhai Wang
cs.AI
초록
Windows, macOS, Linux, iOS, Android 및 웹 플랫폼 전반에 걸쳐 GUI 자동화 에이전트를 평가하기 위한 계층적 벤치마크인 MMBench-GUI를 소개한다. 이 벤치마크는 GUI 콘텐츠 이해, 요소 그라운딩, 작업 자동화, 작업 협업의 네 가지 수준으로 구성되며, GUI 에이전트에게 필수적인 기술을 포괄한다. 또한, 온라인 자동화 시나리오에서 GUI 에이전트의 실행 효율성을 평가하기 위한 새로운 Efficiency-Quality Area(EQA) 메트릭을 제안한다. MMBench-GUI를 통해 정확한 시각적 그라운딩이 전체 작업 성공의 중요한 결정 요인임을 확인하였으며, 특화된 그라운딩 모듈을 통합한 모듈형 프레임워크의 상당한 이점을 강조한다. 더 나아가, 신뢰할 수 있는 GUI 자동화를 달성하기 위해서는 에이전트가 강력한 작업 계획 및 크로스 플랫폼 일반화 능력을 필요로 하며, 장기 컨텍스트 메모리, 광범위한 액션 공간, 장기적 추론이 중요한 역할을 한다. 무엇보다도, 작업 효율성은 여전히 심각하게 탐구되지 않은 차원이며, 모든 모델이 상당한 비효율성을 겪고 있으며, 작업이 최종적으로 완료되더라도 과도한 중복 단계가 발생한다. 정확한 위치 지정, 효과적인 계획, 조기 중단 전략의 통합은 진정으로 효율적이고 확장 가능한 GUI 자동화를 가능하게 하는 데 필수적이다. 본 벤치마크 코드, 평가 데이터 및 실행 환경은 https://github.com/open-compass/MMBench-GUI에서 공개될 예정이다.
English
We introduce MMBench-GUI, a hierarchical benchmark for evaluating GUI
automation agents across Windows, macOS, Linux, iOS, Android, and Web
platforms. It comprises four levels: GUI Content Understanding, Element
Grounding, Task Automation, and Task Collaboration, covering essential skills
for GUI agents. In addition, we propose a novel Efficiency-Quality Area (EQA)
metric to assess GUI agent execution efficiency in online automation scenarios.
Through MMBench-GUI, we identify accurate visual grounding as a critical
determinant of overall task success, emphasizing the substantial benefits of
modular frameworks that integrate specialized grounding modules. Furthermore,
to achieve reliable GUI automation, an agent requires strong task planning and
cross-platform generalization abilities, with long-context memory, a broad
action space, and long-term reasoning playing a critical role. More important,
task efficiency remains a critically underexplored dimension, and all models
suffer from substantial inefficiencies, with excessive redundant steps even
when tasks are ultimately completed. The integration of precise localization,
effective planning, and early stopping strategies is indispensable to enable
truly efficient and scalable GUI automation. Our benchmark code, evaluation
data, and running environment will be publicly available at
https://github.com/open-compass/MMBench-GUI.