VenusBench-Mobile: Um Benchmark Desafiador e Centrado no Usuário para Agentes de Interface Gráfica Móvel com Diagnóstico de Capacidades

Resumo

Os benchmarks online existentes para agentes de GUI móveis permanecem amplamente centrados em aplicativos e homogéneos em tarefas, falhando em refletir a diversidade e instabilidade do uso real de dispositivos móveis. Para tal, introduzimos o VenusBench-Mobile, um benchmark online desafiador para avaliar agentes de GUI móveis de propósito geral sob condições realistas e centradas no utilizador. O VenusBench-Mobile assenta em dois pilares centrais de avaliação: definir o que avaliar através de um desenho de tarefas orientado por intenções do utilizador que reflete o uso real de dispositivos móveis, e como avaliar através de um esquema de anotação orientado por capacidades para uma análise granular do comportamento do agente. A avaliação extensiva de agentes de GUI móveis state-of-the-art revela grandes lacunas de desempenho em relação a benchmarks anteriores, indicando que o VenusBench-Mobile apresenta tarefas substancialmente mais desafiadoras e realistas e que os agentes atuais permanecem muito longe de uma implantação confiável no mundo real. A análise diagnóstica mostra ainda que as falhas são dominadas por deficiências na perceção e memória, as quais são amplamente obscurecidas por avaliações de granularidade grossa. Além disso, mesmo os agentes mais fortes exibem uma taxa de sucesso próxima de zero sob variações ambientais, destacando a sua fragilidade em ambientes realistas. Com base nestas perceções, acreditamos que o VenusBench-Mobile fornece um passo importante em direção à implantação robusta no mundo real de agentes de GUI móveis. O código e os dados estão disponíveis em https://github.com/inclusionAI/UI-Venus/tree/VenusBench-Mobile.

English

Existing online benchmarks for mobile GUI agents remain largely app-centric and task-homogeneous, failing to reflect the diversity and instability of real-world mobile usage. To this end, we introduce VenusBench-Mobile, a challenging online benchmark for evaluating general-purpose mobile GUI agents under realistic, user-centric conditions. VenusBench-Mobile builds two core evaluation pillars: defining what to evaluate via user-intent-driven task design that reflects real mobile usage, and how to evaluate through a capability-oriented annotation scheme for fine-grained agent behavior analysis. Extensive evaluation of state-of-the-art mobile GUI agents reveals large performance gaps relative to prior benchmarks, indicating that VenusBench-Mobile poses substantially more challenging and realistic tasks and that current agents remain far from reliable real-world deployment. Diagnostic analysis further shows that failures are dominated by deficiencies in perception and memory, which are largely obscured by coarse-grained evaluations. Moreover, even the strongest agents exhibit near-zero success under environment variations, highlighting their brittleness in realistic settings. Based on these insights, we believe VenusBench-Mobile provides an important stepping stone toward robust real-world deployment of mobile GUI agents. Code and data are available at https://github.com/inclusionAI/UI-Venus/tree/VenusBench-Mobile.

VenusBench-Mobile: Um Benchmark Desafiador e Centrado no Usuário para Agentes de Interface Gráfica Móvel com Diagnóstico de Capacidades

VenusBench-Mobile: A Challenging and User-Centric Benchmark for Mobile GUI Agents with Capability Diagnostics

Resumo

Support