VenusBench-GD: Een uitgebreide multi-platform GUI-benchmark voor diverse groundingtaken
VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks
December 18, 2025
Auteurs: Beitong Zhou, Zhexiao Huang, Yuan Guo, Zhangxuan Gu, Tianyu Xia, Zichen Luo, Fei Tang, Dehan Kong, Yanyi Shang, Suling Ou, Zhenlin Guo, Changhua Meng, Shuheng Shen
cs.AI
Samenvatting
GUI-grounding is een cruciaal onderdeel bij het bouwen van capabele GUI-agenten. Bestaande groundingbenchmarks kampen echter met aanzienlijke beperkingen: ze bieden ofwel onvoldoende datavolume en smalle domeindekking, of richten zich overmatig op een enkel platform en vereisen zeer gespecialiseerde domeinkennis. In dit werk presenteren we VenusBench-GD, een uitgebreide, tweetalige benchmark voor GUI-grounding die meerdere platforms omspant en hiërarchische evaluatie voor real-world toepassingen mogelijk maakt. VenusBench-GD draagt als volgt bij: (i) we introduceren een grootschalige, platformonafhankelijke benchmark met uitgebreide dekking van applicaties, diverse UI-elementen en rijk geannoteerde data, (ii) we stellen een pijplijn voor hoogwaardige dataconstructie voor groundingtaken op, waarbij we een hogere annotatienauwkeurigheid bereiken dan bestaande benchmarks, en (iii) we breiden de reikwijdte van elementgrounding uit door een hiërarchische taaktaxonomie voor te stellen die grounding verdeelt in basis- en geavanceerde categorieën, met zes afzonderlijke subtaken ontworpen om modellen vanuit complementaire perspectieven te evalueren. Onze experimentele bevindingen onthullen kritieke inzichten: algemene multimodale modellen evenaren of overtreffen nu gespecialiseerde GUI-modellen op basisgroundingtaken. Daarentegen geven geavanceerde taken nog steeds de voorkeur aan GUI-gespecialiseerde modellen, hoewel deze aanzienlijke overfitting en slechte robuustheid vertonen. Deze resultaten onderstrepen de noodzaak van uitgebreide, meerlagige evaluatiekaders.
English
GUI grounding is a critical component in building capable GUI agents. However, existing grounding benchmarks suffer from significant limitations: they either provide insufficient data volume and narrow domain coverage, or focus excessively on a single platform and require highly specialized domain knowledge. In this work, we present VenusBench-GD, a comprehensive, bilingual benchmark for GUI grounding that spans multiple platforms, enabling hierarchical evaluation for real-word applications. VenusBench-GD contributes as follows: (i) we introduce a large-scale, cross-platform benchmark with extensive coverage of applications, diverse UI elements, and rich annotated data, (ii) we establish a high-quality data construction pipeline for grounding tasks, achieving higher annotation accuracy than existing benchmarks, and (iii) we extend the scope of element grounding by proposing a hierarchical task taxonomy that divides grounding into basic and advanced categories, encompassing six distinct subtasks designed to evaluate models from complementary perspectives. Our experimental findings reveal critical insights: general-purpose multimodal models now match or even surpass specialized GUI models on basic grounding tasks. In contrast, advanced tasks, still favor GUI-specialized models, though they exhibit significant overfitting and poor robustness. These results underscore the necessity of comprehensive, multi-tiered evaluation frameworks.