VenusBench-GD : Un benchmark complet d'interface graphique multiplateforme pour diverses tâches d'ancrage
VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks
December 18, 2025
papers.authors: Beitong Zhou, Zhexiao Huang, Yuan Guo, Zhangxuan Gu, Tianyu Xia, Zichen Luo, Fei Tang, Dehan Kong, Yanyi Shang, Suling Ou, Zhenlin Guo, Changhua Meng, Shuheng Shen
cs.AI
papers.abstract
La localisation d'interface graphique est un élément crucial dans le développement d'agents GUI performants. Cependant, les benchmarks existants en matière de localisation présentent des limitations importantes : ils offrent soit un volume de données insuffisant et une couverture de domaine restreinte, soit se concentrent excessivement sur une seule plateforme et nécessitent des connaissances domaines hautement spécialisées. Dans ce travail, nous présentons VenusBench-GD, un benchmark bilingue complet pour la localisation GUI couvrant multiples plateformes, permettant une évaluation hiérarchique pour les applications réelles. VenusBench-GD apporte trois contributions principales : (i) nous introduisons un benchmark multi-plateforme à grande échelle avec une couverture étendue d'applications, des éléments d'interface diversifiés et des données annotées riches, (ii) nous établissons un pipeline de construction de données de haute qualité pour les tâches de localisation, atteignant une précision d'annotation supérieure aux benchmarks existants, et (iii) nous étendons le champ de la localisation d'éléments en proposant une taxonomie hiérarchique des tâches qui divise la localisation en catégories basique et avancée, englobant six sous-tâches distinctes conçues pour évaluer les modèles sous des perspectives complémentaires. Nos résultats expérimentaux révèlent des insights critiques : les modèles multimodaux généralistes égalent ou surpassent désormais les modèles GUI spécialisés sur les tâches de localisation basique. En revanche, les tâches avancées favorisent encore les modèles spécialisés en GUI, bien qu'ils présentent un surapprentissage significatif et une faible robustesse. Ces résultats soulignent la nécessité de cadres d'évaluation complets et multi-niveaux.
English
GUI grounding is a critical component in building capable GUI agents. However, existing grounding benchmarks suffer from significant limitations: they either provide insufficient data volume and narrow domain coverage, or focus excessively on a single platform and require highly specialized domain knowledge. In this work, we present VenusBench-GD, a comprehensive, bilingual benchmark for GUI grounding that spans multiple platforms, enabling hierarchical evaluation for real-word applications. VenusBench-GD contributes as follows: (i) we introduce a large-scale, cross-platform benchmark with extensive coverage of applications, diverse UI elements, and rich annotated data, (ii) we establish a high-quality data construction pipeline for grounding tasks, achieving higher annotation accuracy than existing benchmarks, and (iii) we extend the scope of element grounding by proposing a hierarchical task taxonomy that divides grounding into basic and advanced categories, encompassing six distinct subtasks designed to evaluate models from complementary perspectives. Our experimental findings reveal critical insights: general-purpose multimodal models now match or even surpass specialized GUI models on basic grounding tasks. In contrast, advanced tasks, still favor GUI-specialized models, though they exhibit significant overfitting and poor robustness. These results underscore the necessity of comprehensive, multi-tiered evaluation frameworks.