ChatPaper.aiChatPaper

VenusBench-GD: Ein umfassender Multi-Plattform-GUI-Benchmark für vielfältige Grounding-Aufgaben

VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks

December 18, 2025
papers.authors: Beitong Zhou, Zhexiao Huang, Yuan Guo, Zhangxuan Gu, Tianyu Xia, Zichen Luo, Fei Tang, Dehan Kong, Yanyi Shang, Suling Ou, Zhenlin Guo, Changhua Meng, Shuheng Shen
cs.AI

papers.abstract

GUI-Grounding ist eine entscheidende Komponente beim Aufbau leistungsfähiger GUI-Agenten. Allerdings weisen bestehende Grounding-Benchmarks erhebliche Einschränkungen auf: Sie bieten entweder unzureichende Datenmengen und eine zu enge Domänenabdeckung oder konzentrieren sich übermäßig auf eine einzelne Plattform und erfordern hochspezialisiertes Domänenwissen. In dieser Arbeit stellen wir VenusBench-GD vor, einen umfassenden, zweisprachigen Benchmark für GUI-Grounding, der mehrere Plattformen umspannt und eine hierarchische Evaluation für reale Anwendungen ermöglicht. VenusBench-GD leistet folgende Beiträge: (i) Wir führen einen groß angelegten, plattformübergreifenden Benchmark mit umfassender Anwendungsabdeckung, diversen UI-Elementen und umfangreichen annotierten Daten ein, (ii) wir etablieren eine hochwertige Datenkonstruktions-Pipeline für Grounding-Aufgaben, die eine höhere Annotationsgenauigkeit als bestehende Benchmarks erreicht, und (iii) wir erweitern den Umfang des Element-Groundings durch eine hierarchische Aufgaben-Taxonomie, die Grounding in grundlegende und fortgeschrittene Kategorien unterteilt und sechs verschiedene Teilaufgaben umfasst, die Modelle aus komplementären Perspektiven evaluieren sollen. Unsere experimentellen Ergebnisse liefern kritische Erkenntnisse: Allgemeine multimodale Modelle erreichen oder übertreffen nun spezialisierte GUI-Modelle bei grundlegenden Grounding-Aufgaben. Im Gegensatz dazu schneiden bei fortgeschrittenen Aufgaben nach wie vor GUI-spezialisierte Modelle besser ab, obwohl diese eine signifikante Überanpassung und geringe Robustheit aufweisen. Diese Ergebnisse unterstreichen die Notwendigkeit umfassender, mehrstufiger Evaluierungsrahmen.
English
GUI grounding is a critical component in building capable GUI agents. However, existing grounding benchmarks suffer from significant limitations: they either provide insufficient data volume and narrow domain coverage, or focus excessively on a single platform and require highly specialized domain knowledge. In this work, we present VenusBench-GD, a comprehensive, bilingual benchmark for GUI grounding that spans multiple platforms, enabling hierarchical evaluation for real-word applications. VenusBench-GD contributes as follows: (i) we introduce a large-scale, cross-platform benchmark with extensive coverage of applications, diverse UI elements, and rich annotated data, (ii) we establish a high-quality data construction pipeline for grounding tasks, achieving higher annotation accuracy than existing benchmarks, and (iii) we extend the scope of element grounding by proposing a hierarchical task taxonomy that divides grounding into basic and advanced categories, encompassing six distinct subtasks designed to evaluate models from complementary perspectives. Our experimental findings reveal critical insights: general-purpose multimodal models now match or even surpass specialized GUI models on basic grounding tasks. In contrast, advanced tasks, still favor GUI-specialized models, though they exhibit significant overfitting and poor robustness. These results underscore the necessity of comprehensive, multi-tiered evaluation frameworks.
PDF82December 20, 2025