VenusBench-Mobile: Un Punto de Referencia Desafiante y Centrado en el Usuario para Agentes de GUI Móviles con Diagnóstico de Capacidades

Resumen

Los benchmarks en línea existentes para agentes de GUI móviles siguen siendo en gran medida centrados en aplicaciones y homogéneos en tareas, sin reflejar la diversidad e inestabilidad del uso móvil en el mundo real. Para ello, presentamos VenusBench-Mobile, un benchmark en línea desafiante para evaluar agentes de GUI móviles de propósito general bajo condiciones realistas y centradas en el usuario. VenusBench-Mobile construye dos pilares centrales de evaluación: definir qué evaluar mediante un diseño de tareas impulsado por la intención del usuario que refleje el uso móvil real, y cómo evaluar a través de un esquema de anotación orientado a capacidades para un análisis granular del comportamiento del agente. La evaluación exhaustiva de los agentes de GUI móviles más avanzados revela grandes brechas de rendimiento en comparación con benchmarks anteriores, lo que indica que VenusBench-Mobile plantea tareas sustancialmente más desafiantes y realistas, y que los agentes actuales distan mucho de ser aptos para un despliegue confiable en entornos reales. El análisis diagnóstico muestra además que los fallos están dominados por deficiencias en percepción y memoria, aspectos que las evaluaciones de grano grueso suelen ocultar. Además, incluso los agentes más potentes muestran una tasa de éxito casi nula bajo variaciones del entorno, lo que subraya su fragilidad en escenarios realistas. Basándonos en estas observaciones, creemos que VenusBench-Mobile constituye un peldaño importante hacia el despliegue robusto en el mundo real de los agentes de GUI móviles. El código y los datos están disponibles en https://github.com/inclusionAI/UI-Venus/tree/VenusBench-Mobile.

English

Existing online benchmarks for mobile GUI agents remain largely app-centric and task-homogeneous, failing to reflect the diversity and instability of real-world mobile usage. To this end, we introduce VenusBench-Mobile, a challenging online benchmark for evaluating general-purpose mobile GUI agents under realistic, user-centric conditions. VenusBench-Mobile builds two core evaluation pillars: defining what to evaluate via user-intent-driven task design that reflects real mobile usage, and how to evaluate through a capability-oriented annotation scheme for fine-grained agent behavior analysis. Extensive evaluation of state-of-the-art mobile GUI agents reveals large performance gaps relative to prior benchmarks, indicating that VenusBench-Mobile poses substantially more challenging and realistic tasks and that current agents remain far from reliable real-world deployment. Diagnostic analysis further shows that failures are dominated by deficiencies in perception and memory, which are largely obscured by coarse-grained evaluations. Moreover, even the strongest agents exhibit near-zero success under environment variations, highlighting their brittleness in realistic settings. Based on these insights, we believe VenusBench-Mobile provides an important stepping stone toward robust real-world deployment of mobile GUI agents. Code and data are available at https://github.com/inclusionAI/UI-Venus/tree/VenusBench-Mobile.

VenusBench-Mobile: Un Punto de Referencia Desafiante y Centrado en el Usuario para Agentes de GUI Móviles con Diagnóstico de Capacidades

VenusBench-Mobile: A Challenging and User-Centric Benchmark for Mobile GUI Agents with Capability Diagnostics

Resumen

Support