VenusBench-GD: 다양한 접지 작업을 위한 종합 멀티플랫폼 GUI 벤치마크
VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks
December 18, 2025
저자: Beitong Zhou, Zhexiao Huang, Yuan Guo, Zhangxuan Gu, Tianyu Xia, Zichen Luo, Fei Tang, Dehan Kong, Yanyi Shang, Suling Ou, Zhenlin Guo, Changhua Meng, Shuheng Shen
cs.AI
초록
GUI 그라운딩은 능력 있는 GUI 에이전트 구축의 핵심 구성 요소입니다. 그러나 기존 그라운딩 벤치마크는 상당한 한계를 지니고 있습니다: 데이터 양이 불충분하고 도메인 범위가 제한적이거나, 단일 플랫폼에 과도하게 집중하며 매우 전문적인 도메인 지식을 요구합니다. 본 연구에서는 여러 플랫폼에 걸쳐 계층적 평가를 가능하게 하는 포괄적인 GUI 그라운딩 벤치마크인 VenusBench-GD를 제시합니다. VenusBench-GD의 기여점은 다음과 같습니다: (i) 광범위한 애플리케이션 커버리지, 다양한 UI 요소, 풍부한 주석 데이터를 갖춘 대규모 교차 플랫폼 벤치마크를 도입하였고, (ii) 그라운딩 작업을 위한 고품질 데이터 구축 파이프라인을 구축하여 기존 벤치마크보다 높은 주석 정확도를 달성하였으며, (iii) 그라운딩을 기본 및 고급 범주로 구분하고 상호 보완적 관점에서 모델을 평가하도록 설계된 6가지 세부 작업을 포함하는 계층적 작업 분류 체계를 제안하여 요소 그라운딩의 범위를 확장했습니다. 우리의 실험 결과는 중요한 통찰을 보여줍니다: 범용 멀티모달 모델이 이제 기본 그라운딩 작업에서 전용 GUI 모델과 동등하거나 오히려 능가하는 성능을 보입니다. 반면, 고급 작업에서는 여전히 GUI 전용 모델이 우수하지만, 심각한 과적합과 낮은 강건성을 나타냅니다. 이러한 결과는 포괄적이고 다단계의 평가 프레임워크의 필요성을 강조합니다.
English
GUI grounding is a critical component in building capable GUI agents. However, existing grounding benchmarks suffer from significant limitations: they either provide insufficient data volume and narrow domain coverage, or focus excessively on a single platform and require highly specialized domain knowledge. In this work, we present VenusBench-GD, a comprehensive, bilingual benchmark for GUI grounding that spans multiple platforms, enabling hierarchical evaluation for real-word applications. VenusBench-GD contributes as follows: (i) we introduce a large-scale, cross-platform benchmark with extensive coverage of applications, diverse UI elements, and rich annotated data, (ii) we establish a high-quality data construction pipeline for grounding tasks, achieving higher annotation accuracy than existing benchmarks, and (iii) we extend the scope of element grounding by proposing a hierarchical task taxonomy that divides grounding into basic and advanced categories, encompassing six distinct subtasks designed to evaluate models from complementary perspectives. Our experimental findings reveal critical insights: general-purpose multimodal models now match or even surpass specialized GUI models on basic grounding tasks. In contrast, advanced tasks, still favor GUI-specialized models, though they exhibit significant overfitting and poor robustness. These results underscore the necessity of comprehensive, multi-tiered evaluation frameworks.