VenusBench-GD: Um Benchmark Abrangente de Interface Gráfica Multiplataforma para Diversas Tarefas de Grounding

Resumo

A fundamentação de GUI é um componente crítico na construção de agentes de GUI capazes. No entanto, os benchmarks de fundamentação existentes sofrem de limitações significativas: eles fornecem volume de dados insuficiente e cobertura de domínio restrita, ou focam excessivamente em uma única plataforma e exigem conhecimento de domínio altamente especializado. Neste trabalho, apresentamos o VenusBench-GD, um benchmark bilíngue e abrangente para fundamentação de GUI que abrange múltiplas plataformas, permitindo uma avaliação hierárquica para aplicações do mundo real. O VenusBench-GD contribui da seguinte forma: (i) introduzimos um benchmark em larga escala e multiplataforma com ampla cobertura de aplicações, elementos de UI diversificados e dados anotados ricos, (ii) estabelecemos um pipeline de construção de dados de alta qualidade para tarefas de fundamentação, alcançando maior precisão de anotação do que os benchmarks existentes, e (iii) estendemos o escopo da fundamentação de elementos propondo uma taxonomia de tarefas hierárquica que divide a fundamentação em categorias básica e avançada, abrangendo seis subtarefas distintas projetadas para avaliar modelos a partir de perspectivas complementares. Nossas descobertas experimentais revelam insights críticos: modelos multimodais de propósito geral agora igualam ou até superam modelos de GUI especializados em tarefas básicas de fundamentação. Em contraste, tarefas avançadas ainda favorecem modelos especializados em GUI, embora estes exibam overfitting significativo e baixa robustez. Esses resultados ressaltam a necessidade de estruturas de avaliação abrangentes e multiníveis.

English

GUI grounding is a critical component in building capable GUI agents. However, existing grounding benchmarks suffer from significant limitations: they either provide insufficient data volume and narrow domain coverage, or focus excessively on a single platform and require highly specialized domain knowledge. In this work, we present VenusBench-GD, a comprehensive, bilingual benchmark for GUI grounding that spans multiple platforms, enabling hierarchical evaluation for real-word applications. VenusBench-GD contributes as follows: (i) we introduce a large-scale, cross-platform benchmark with extensive coverage of applications, diverse UI elements, and rich annotated data, (ii) we establish a high-quality data construction pipeline for grounding tasks, achieving higher annotation accuracy than existing benchmarks, and (iii) we extend the scope of element grounding by proposing a hierarchical task taxonomy that divides grounding into basic and advanced categories, encompassing six distinct subtasks designed to evaluate models from complementary perspectives. Our experimental findings reveal critical insights: general-purpose multimodal models now match or even surpass specialized GUI models on basic grounding tasks. In contrast, advanced tasks, still favor GUI-specialized models, though they exhibit significant overfitting and poor robustness. These results underscore the necessity of comprehensive, multi-tiered evaluation frameworks.

VenusBench-GD: Um Benchmark Abrangente de Interface Gráfica Multiplataforma para Diversas Tarefas de Grounding

VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks

Resumo

Support