VenusBench-Mobile: モバイルGUIエージェントのための診断機能を備えた挑戦的かつユーザー中心のベンチマーク
VenusBench-Mobile: A Challenging and User-Centric Benchmark for Mobile GUI Agents with Capability Diagnostics
February 6, 2026
著者: Yichen Gong, Zhuohan Cai, Sunhao Dai, Yuqi Zhou, Zhangxuan Gu, Changhua Meng, Shuheng Shen
cs.AI
要旨
既存のモバイルGUIエージェントのオンラインベンチマークは、アプリ中心でタスクが均質なものが大半を占めており、実世界のモバイル利用の多様性と不安定性を反映できていない。この問題に対処するため、我々は現実的かつユーザー中心の条件下で汎用モバイルGUIエージェントを評価するための挑戦的なオンラインベンチマーク「VenusBench-Mobile」を提案する。VenusBench-Mobileは2つの核心的評価基盤を構築している:実モバイル利用を反映したユーザー意図駆動型タスク設計による評価項目の定義と、細粒度なエージェント行動分析のための能力指向注釈スキームによる評価方法の確立である。最先端モバイルGUIエージェントに対する大規模評価により、従来のベンチマークと比較して大きな性能差が明らかになり、VenusBench-Mobileが本質的に困難で現実的なタスクを提示すること、および現状のエージェントが信頼性のある実世界展開には程遠いことが示された。診断分析からは、認識機能と記憶機能の欠陥が失敗の主要因であり、これらが粗粒度評価では見逃されがちであることが判明した。さらに、最も優れたエージェントでさえ環境変動下では成功率がほぼゼロに近く、現実設定における脆弱性が浮き彫りになった。これらの知見に基づき、VenusBench-MobileがモバイルGUIエージェントの堅牢な実世界展開に向けた重要な基盤を提供すると確信している。コードとデータはhttps://github.com/inclusionAI/UI-Venus/tree/VenusBench-Mobileで公開されている。
English
Existing online benchmarks for mobile GUI agents remain largely app-centric and task-homogeneous, failing to reflect the diversity and instability of real-world mobile usage. To this end, we introduce VenusBench-Mobile, a challenging online benchmark for evaluating general-purpose mobile GUI agents under realistic, user-centric conditions. VenusBench-Mobile builds two core evaluation pillars: defining what to evaluate via user-intent-driven task design that reflects real mobile usage, and how to evaluate through a capability-oriented annotation scheme for fine-grained agent behavior analysis. Extensive evaluation of state-of-the-art mobile GUI agents reveals large performance gaps relative to prior benchmarks, indicating that VenusBench-Mobile poses substantially more challenging and realistic tasks and that current agents remain far from reliable real-world deployment. Diagnostic analysis further shows that failures are dominated by deficiencies in perception and memory, which are largely obscured by coarse-grained evaluations. Moreover, even the strongest agents exhibit near-zero success under environment variations, highlighting their brittleness in realistic settings. Based on these insights, we believe VenusBench-Mobile provides an important stepping stone toward robust real-world deployment of mobile GUI agents. Code and data are available at https://github.com/inclusionAI/UI-Venus/tree/VenusBench-Mobile.