ChatPaper.aiChatPaper

VenusBench-GD: Un Benchmark Integral de Interfaz Gráfica Multiplataforma para Diversas Tareas de Grounding

VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks

December 18, 2025
Autores: Beitong Zhou, Zhexiao Huang, Yuan Guo, Zhangxuan Gu, Tianyu Xia, Zichen Luo, Fei Tang, Dehan Kong, Yanyi Shang, Suling Ou, Zhenlin Guo, Changhua Meng, Shuheng Shen
cs.AI

Resumen

La fundamentación de interfaces gráficas (GUI) es un componente crítico para construir agentes de GUI capaces. Sin embargo, los puntos de referencia existentes para la fundamentación adolecen de limitaciones significativas: o bien proporcionan un volumen de datos insuficiente y una cobertura de dominios estrecha, o se centran excesivamente en una única plataforma y requieren un conocimiento de dominio altamente especializado. En este trabajo, presentamos VenusBench-GD, un punto de referencia integral y bilingüe para la fundamentación de GUI que abarca múltiples plataformas, permitiendo una evaluación jerárquica para aplicaciones del mundo real. VenusBench-GD contribuye de la siguiente manera: (i) introducimos un punto de referencia a gran escala y multiplataforma con una cobertura extensa de aplicaciones, diversos elementos de interfaz de usuario y datos anotados enriquecidos, (ii) establecemos una canalización de construcción de datos de alta calidad para tareas de fundamentación, logrando una mayor precisión en la anotación que los puntos de referencia existentes, y (iii) ampliamos el alcance de la fundamentación de elementos proponiendo una taxonomía de tareas jerárquica que divide la fundamentación en categorías básica y avanzada, abarcando seis subtareas distintas diseñadas para evaluar los modelos desde perspectivas complementarias. Nuestros hallazgos experimentales revelan perspectivas críticas: los modelos multimodales de propósito general ahora igualan o incluso superan a los modelos especializados en GUI en tareas básicas de fundamentación. Por el contrario, las tareas avanzadas aún favorecen a los modelos especializados en GUI, aunque estos exhiben un sobreajuste significativo y una pobre robustez. Estos resultados subrayan la necesidad de marcos de evaluación integrales y multinivel.
English
GUI grounding is a critical component in building capable GUI agents. However, existing grounding benchmarks suffer from significant limitations: they either provide insufficient data volume and narrow domain coverage, or focus excessively on a single platform and require highly specialized domain knowledge. In this work, we present VenusBench-GD, a comprehensive, bilingual benchmark for GUI grounding that spans multiple platforms, enabling hierarchical evaluation for real-word applications. VenusBench-GD contributes as follows: (i) we introduce a large-scale, cross-platform benchmark with extensive coverage of applications, diverse UI elements, and rich annotated data, (ii) we establish a high-quality data construction pipeline for grounding tasks, achieving higher annotation accuracy than existing benchmarks, and (iii) we extend the scope of element grounding by proposing a hierarchical task taxonomy that divides grounding into basic and advanced categories, encompassing six distinct subtasks designed to evaluate models from complementary perspectives. Our experimental findings reveal critical insights: general-purpose multimodal models now match or even surpass specialized GUI models on basic grounding tasks. In contrast, advanced tasks, still favor GUI-specialized models, though they exhibit significant overfitting and poor robustness. These results underscore the necessity of comprehensive, multi-tiered evaluation frameworks.
PDF82December 20, 2025