ChatPaper.aiChatPaper

VenusBench-GD:多様なグラウンディングタスクのための包括的マルチプラットフォームGUIベンチマーク

VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks

December 18, 2025
著者: Beitong Zhou, Zhexiao Huang, Yuan Guo, Zhangxuan Gu, Tianyu Xia, Zichen Luo, Fei Tang, Dehan Kong, Yanyi Shang, Suling Ou, Zhenlin Guo, Changhua Meng, Shuheng Shen
cs.AI

要旨

GUIグラウンディングは、高機能なGUIエージェント構築における重要な要素である。しかし、既存のグラウンディングベンチマークには重大な限界がある:データ量が不十分でドメイン範囲が狭いか、単一プラットフォームに過度に焦点を当て専門性の高いドメイン知識を必要とするかのいずれかである。本研究では、複数プラットフォームにまたがり実世界アプリケーションの階層的評価を可能にする、包括的なバイリンガルGUIグラウンディングベンチマーク「VenusBench-GD」を提案する。VenusBench-GDの貢献は以下の通りである:(i) 広範なアプリケーションカバレッジ、多様なUI要素、豊富な注釈データを備えた大規模クロスプラットフォームベンチマークを導入、(ii) グラウンディングタスク向けの高品質なデータ構築パイプラインを確立し、既存ベンチマークよりも高い注釈精度を達成、(iii) グラウンディングを基本カテゴリと応用カテゴリに分類し、相補的な視点からモデルを評価する6つの異なるサブタスクを含む階層的タスク分類を提案することで、要素グラウンディングの範囲を拡張。実験結果から重要な知見が得られた:汎用マルチモーダルモデルは、基本グラウンディングタスクにおいて専門GUIモデルに匹敵、あるいは凌駕する性能を示す。一方、応用タスクでは依然としてGUI特化モデルが優位であるものの、過剰適合が顕著で堅牢性に欠ける。これらの結果は、包括的かつ多層的な評価フレームワークの必要性を強調するものである。
English
GUI grounding is a critical component in building capable GUI agents. However, existing grounding benchmarks suffer from significant limitations: they either provide insufficient data volume and narrow domain coverage, or focus excessively on a single platform and require highly specialized domain knowledge. In this work, we present VenusBench-GD, a comprehensive, bilingual benchmark for GUI grounding that spans multiple platforms, enabling hierarchical evaluation for real-word applications. VenusBench-GD contributes as follows: (i) we introduce a large-scale, cross-platform benchmark with extensive coverage of applications, diverse UI elements, and rich annotated data, (ii) we establish a high-quality data construction pipeline for grounding tasks, achieving higher annotation accuracy than existing benchmarks, and (iii) we extend the scope of element grounding by proposing a hierarchical task taxonomy that divides grounding into basic and advanced categories, encompassing six distinct subtasks designed to evaluate models from complementary perspectives. Our experimental findings reveal critical insights: general-purpose multimodal models now match or even surpass specialized GUI models on basic grounding tasks. In contrast, advanced tasks, still favor GUI-specialized models, though they exhibit significant overfitting and poor robustness. These results underscore the necessity of comprehensive, multi-tiered evaluation frameworks.
PDF82December 20, 2025