VenusBench-GD: Комплексный мультиплатформенный GUI-бенчмарк для разнообразных задач заземления
VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks
December 18, 2025
Авторы: Beitong Zhou, Zhexiao Huang, Yuan Guo, Zhangxuan Gu, Tianyu Xia, Zichen Luo, Fei Tang, Dehan Kong, Yanyi Shang, Suling Ou, Zhenlin Guo, Changhua Meng, Shuheng Shen
cs.AI
Аннотация
Граундинг графического интерфейса пользователя (GUI) является ключевым компонентом при создании эффективных GUI-агентов. Однако существующие бенчмарки для граундинга имеют существенные ограничения: они либо предлагают недостаточный объем данных и узкий охват предметных областей, либо чрезмерно фокусируются на одной платформе и требуют узкоспециальных знаний. В данной работе мы представляем VenusBench-GD — комплексный двуязычный бенчмарк для граундинга GUI, охватывающий несколько платформ и позволяющий проводить иерархическую оценку для реальных приложений. Вклад VenusBench-GD заключается в следующем: (i) мы представляем крупномасштабный кроссплатформенный бенчмарк с широким охватом приложений, разнообразными элементами интерфейса и богатыми размеченными данными; (ii) мы создаем высококачественный конвейер построения данных для задач граундинга, достигая более высокой точности разметки по сравнению с существующими бенчмарками; (iii) мы расширяем область граундинга элементов, предлагая иерархическую таксономию задач, которая делит граундинг на базовые и продвинутые категории, включающие шесть различных подзадач, предназначенных для оценки моделей с взаимодополняющих позиций. Результаты наших экспериментов выявляют важные закономерности: универсальные мультимодальные модели теперь не уступают или даже превосходят специализированные GUI-модели в базовых задачах граундинга. В то же время, в продвинутых задачах по-прежнему лидируют специализированные GUI-модели, хотя они демонстрируют значительное переобучение и низкую устойчивость. Эти результаты подчеркивают необходимость комплексных многоуровневых систем оценки.
English
GUI grounding is a critical component in building capable GUI agents. However, existing grounding benchmarks suffer from significant limitations: they either provide insufficient data volume and narrow domain coverage, or focus excessively on a single platform and require highly specialized domain knowledge. In this work, we present VenusBench-GD, a comprehensive, bilingual benchmark for GUI grounding that spans multiple platforms, enabling hierarchical evaluation for real-word applications. VenusBench-GD contributes as follows: (i) we introduce a large-scale, cross-platform benchmark with extensive coverage of applications, diverse UI elements, and rich annotated data, (ii) we establish a high-quality data construction pipeline for grounding tasks, achieving higher annotation accuracy than existing benchmarks, and (iii) we extend the scope of element grounding by proposing a hierarchical task taxonomy that divides grounding into basic and advanced categories, encompassing six distinct subtasks designed to evaluate models from complementary perspectives. Our experimental findings reveal critical insights: general-purpose multimodal models now match or even surpass specialized GUI models on basic grounding tasks. In contrast, advanced tasks, still favor GUI-specialized models, though they exhibit significant overfitting and poor robustness. These results underscore the necessity of comprehensive, multi-tiered evaluation frameworks.