VenusBench-Mobile: Un Benchmark Impegnativo e Centrato sull'Utente per Agenti GUI Mobili con Diagnostica delle Capacità

Abstract

Gli attuali benchmark online per agenti GUI mobili rimangono prevalentemente centrati sulle app e con compiti omogenei, non riuscendo a riflettere la diversità e l'instabilità dell'utilizzo mobile nel mondo reale. A tal fine, introduciamo VenusBench-Mobile, un benchmark online impegnativo per valutare agenti GUI mobili generici in condizioni realistiche e centrate sull'utente. VenusBench-Mobile si fonda su due pilastri valutativi fondamentali: definire cosa valutare attraverso una progettazione dei compiti guidata dall'intento dell'utente che rifletta l'uso mobile reale, e come valutare mediante uno schema di annotazione orientato alle capacità per un'analisi granulare del comportamento degli agenti. Una valutazione estesa degli agenti GUI mobili più all'avanguardia rivela ampi divari prestazionali rispetto ai benchmark precedenti, indicando che VenusBench-Mobile propone compiti sostanzialmente più impegnativi e realistici e che gli agenti attuali sono ancora lontani da un affidabile dispiegamento nel mondo reale. L'analisi diagnostica mostra inoltre che gli errori sono dominati da carenze nella percezione e nella memoria, aspetti largamente oscurati da valutazioni a grana grossa. Inoltre, anche gli agenti più potenti mostrano un tasso di successo quasi nullo in presenza di variazioni ambientali, evidenziando la loro fragilità in contesti realistici. Sulla base di queste osservazioni, riteniamo che VenusBench-Mobile costituisca un importante passo avanti verso un dispiegamento robusto nel mondo reale degli agenti GUI mobili. Codice e dati sono disponibili all'indirizzo https://github.com/inclusionAI/UI-Venus/tree/VenusBench-Mobile.

English

Existing online benchmarks for mobile GUI agents remain largely app-centric and task-homogeneous, failing to reflect the diversity and instability of real-world mobile usage. To this end, we introduce VenusBench-Mobile, a challenging online benchmark for evaluating general-purpose mobile GUI agents under realistic, user-centric conditions. VenusBench-Mobile builds two core evaluation pillars: defining what to evaluate via user-intent-driven task design that reflects real mobile usage, and how to evaluate through a capability-oriented annotation scheme for fine-grained agent behavior analysis. Extensive evaluation of state-of-the-art mobile GUI agents reveals large performance gaps relative to prior benchmarks, indicating that VenusBench-Mobile poses substantially more challenging and realistic tasks and that current agents remain far from reliable real-world deployment. Diagnostic analysis further shows that failures are dominated by deficiencies in perception and memory, which are largely obscured by coarse-grained evaluations. Moreover, even the strongest agents exhibit near-zero success under environment variations, highlighting their brittleness in realistic settings. Based on these insights, we believe VenusBench-Mobile provides an important stepping stone toward robust real-world deployment of mobile GUI agents. Code and data are available at https://github.com/inclusionAI/UI-Venus/tree/VenusBench-Mobile.

VenusBench-Mobile: Un Benchmark Impegnativo e Centrato sull'Utente per Agenti GUI Mobili con Diagnostica delle Capacità

VenusBench-Mobile: A Challenging and User-Centric Benchmark for Mobile GUI Agents with Capability Diagnostics

Abstract

Support