SimuWoB: Simulando Aplicativos Móveis do Mundo Real para Benchmarking Rápido e Fiel de Agentes GUI

Resumo

Agentes de GUI móvel impulsionados por grandes modelos de linguagem têm progredido rapidamente, criando necessidades urgentes de avaliação realista e abrangente. Os benchmarks existentes priorizam a reprodutibilidade, mas frequentemente se limitam a aplicativos de código aberto ou tarefas de manipulação de arquivos devido à dificuldade de construir recompensas em aplicações reais, deixando uma lacuna entre as configurações de benchmark e o uso no mundo real. Além disso, a maioria dos benchmarks foca em fundamentação e navegação básicas, com cobertura limitada de interações complexas e de longo horizonte. Para enfrentar essas limitações, apresentamos o SimuWoB, um benchmark totalmente sintético para agentes de GUI móvel com 120 tarefas desafiadoras que abrangem diversos tipos e níveis de dificuldade. Construímos uma estrutura robusta de geração de ambiente virtual que sintetiza tarefas e ambientes de alta fidelidade, e fornece automaticamente recompensas válidas para cada tarefa. Cada ambiente é implantado como uma página web sem necessidade de backend, acessível por URL, permitindo uma avaliação eficiente e reprodutível. Realizamos experimentos abrangentes com vários agentes de GUI móvel de última geração. A taxa média de sucesso é de apenas 27,92%, caindo para 17,82% em tarefas de longo horizonte, o que revela fraquezas substanciais nos agentes atuais em cenários complexos. A comparação dos resultados da avaliação com tarefas de amostra do mundo real demonstra que as avaliações de agentes baseadas em nosso ambiente sintético generalizam bem. Fornecemos ainda insights diagnósticos em dimensões-chave de capacidade e discutimos implicações para o desenvolvimento futuro de agentes de GUI móvel.

English

Mobile GUI agents powered by large language models have progressed rapidly, creating urgent needs for realistic and comprehensive evaluation. Existing benchmarks prioritize reproducibility but are often limited to open-source apps or file-operation tasks for the difficulty of constructing rewards on real applications, leaving a gap between benchmark settings and real-world usage. Moreover, most benchmarks focus on basic grounding and navigation, with limited coverage of complex, long-horizon interactions. To address these limitations, we introduce SimuWoB, a fully synthetic benchmark for mobile GUI agents with 120 challenging tasks spanning diverse types and difficulty levels. We build a robust virtual environment generation framework that synthesizes high-fidelity tasks and environments, and automatically provides valid rewards for each task. Each environment is deployed as a backend-free webpage accessible via URL, enabling efficient and reproducible evaluation. We conduct comprehensive experiments on several state-of-the-art mobile GUI agents. The average success rate is only 27.92%, dropping to 17.82% on long-horizon tasks, which reveals substantial weaknesses in current agents under complex scenarios. Evaluation result comparison with real-world sample tasks demonstrate that agent assessments based on our synthetic environment generalize well. We further provide diagnostic insights across key capability dimensions and discuss implications for future mobile GUI agent development.