VenusBench-GD: Un Benchmark GUI Completo e Multi-Piattaforma per Diversi Compiti di Grounding
VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks
December 18, 2025
Autori: Beitong Zhou, Zhexiao Huang, Yuan Guo, Zhangxuan Gu, Tianyu Xia, Zichen Luo, Fei Tang, Dehan Kong, Yanyi Shang, Suling Ou, Zhenlin Guo, Changhua Meng, Shuheng Shen
cs.AI
Abstract
Il grounding dell'interfaccia grafica (GUI) è un componente critico per la costruzione di agenti GUI capaci. Tuttavia, i benchmark di grounding esistenti presentano limitazioni significative: forniscono un volume di dati insufficiente e una copertura di dominio ristretta, oppure si concentrano eccessivamente su una singola piattaforma richiedendo conoscenze di dominio altamente specializzate. In questo lavoro, presentiamo VenusBench-GD, un benchmark bilingue e completo per il grounding di GUI che abbraccia più piattaforme, consentendo una valutazione gerarchica per applicazioni del mondo reale. VenusBench-GD contribuisce come segue: (i) introduciamo un benchmark su larga scala e cross-platform con un'ampia copertura di applicazioni, elementi UI diversificati e dati annotati ricchi, (ii) stabiliamo una pipeline di costruzione dati di alta qualità per i task di grounding, raggiungendo una precisione di annotazione superiore rispetto ai benchmark esistenti, e (iii) estendiamo l'ambito del grounding di elementi proponendo una tassonomia gerarchica dei task che divide il grounding in categorie di base e avanzate, comprendendo sei sottotask distinti progettati per valutare i modelli da prospettive complementari. I nostri risultati sperimentali rivelano insight critici: i modelli multimodali generici ora eguagliano o addirittura superano i modelli GUI specializzati sui task di grounding di base. Al contrario, i task avanzati favoriscono ancora i modelli specializzati per GUI, sebbene mostrino un significativo overfitting e una scarsa robustezza. Questi risultati sottolineano la necessità di framework di valutazione completi e multilivello.
English
GUI grounding is a critical component in building capable GUI agents. However, existing grounding benchmarks suffer from significant limitations: they either provide insufficient data volume and narrow domain coverage, or focus excessively on a single platform and require highly specialized domain knowledge. In this work, we present VenusBench-GD, a comprehensive, bilingual benchmark for GUI grounding that spans multiple platforms, enabling hierarchical evaluation for real-word applications. VenusBench-GD contributes as follows: (i) we introduce a large-scale, cross-platform benchmark with extensive coverage of applications, diverse UI elements, and rich annotated data, (ii) we establish a high-quality data construction pipeline for grounding tasks, achieving higher annotation accuracy than existing benchmarks, and (iii) we extend the scope of element grounding by proposing a hierarchical task taxonomy that divides grounding into basic and advanced categories, encompassing six distinct subtasks designed to evaluate models from complementary perspectives. Our experimental findings reveal critical insights: general-purpose multimodal models now match or even surpass specialized GUI models on basic grounding tasks. In contrast, advanced tasks, still favor GUI-specialized models, though they exhibit significant overfitting and poor robustness. These results underscore the necessity of comprehensive, multi-tiered evaluation frameworks.