MobileWorld: Avaliação de Agentes Móveis Autónomos em Ambientes de Interação Agente-Usuário e Ambientes Aumentados por MCP

Resumo

Entre os benchmarks existentes para uso móvel online, o AndroidWorld emergiu como o benchmark dominante devido ao seu ambiente reproduzível e avaliação determinística; no entanto, os recentes agentes que alcançam taxas de sucesso superiores a 90% indicam sua saturação e motivam a necessidade de um benchmark mais desafiador. Além disso, seu ambiente carece de categorias de aplicativos-chave, como comércio eletrônico e comunicação empresarial, e não reflete cenários realistas de uso móvel, caracterizados por instruções vagas do usuário e uso híbrido de ferramentas. Para preencher essa lacuna, introduzimos o MobileWorld, um benchmark substancialmente mais desafiador, projetado para refletir melhor o uso real de dispositivos móveis, compreendendo 201 tarefas em 20 aplicativos, mantendo o mesmo nível de avaliação reproduzível do AndroidWorld. A dificuldade do MobileWorld é dupla. Primeiro, ele enfatiza tarefas de longo horizonte com interações entre aplicativos: o MobileWorld requer quase o dobro de etapas para conclusão de tarefas em média (27,8 vs. 14,3) e inclui muito mais tarefas multi-aplicativo (62,2% vs. 9,5%) em comparação com o AndroidWorld. Segundo, o MobileWorld vai além da manipulação padrão de GUI, introduzindo novas categorias de tarefas, incluindo interação agente-usuário e tarefas aumentadas por MCP. Para garantir uma avaliação robusta, fornecemos um ambiente de contêiner baseado em snapshot e verificações funcionais precisas, incluindo inspeção de banco de dados backend e APIs de callback de tarefas. Desenvolvemos ainda uma estrutura agentiva planejador-executor com espaços de ação estendidos para suportar interações do usuário e chamadas MCP. Nossos resultados revelam uma queda acentuada no desempenho em comparação com o AndroidWorld, com a melhor estrutura agentiva e o modelo end-to-end alcançando taxas de sucesso de 51,7% e 20,9%, respectivamente. Nossa análise mostra que os modelos atuais têm dificuldades significativas com a interação do usuário e chamadas MCP, oferecendo um roteiro estratégico para uma inteligência móvel de próxima geração mais robusta.

English

Among existing online mobile-use benchmarks, AndroidWorld has emerged as the dominant benchmark due to its reproducible environment and deterministic evaluation; however, recent agents achieving over 90% success rates indicate its saturation and motivate the need for a more challenging benchmark. In addition, its environment lacks key application categories, such as e-commerce and enterprise communication, and does not reflect realistic mobile-use scenarios characterized by vague user instructions and hybrid tool usage. To bridge this gap, we introduce MobileWorld, a substantially more challenging benchmark designed to better reflect real-world mobile usage, comprising 201 tasks across 20 applications, while maintaining the same level of reproducible evaluation as AndroidWorld. The difficulty of MobileWorld is twofold. First, it emphasizes long-horizon tasks with cross-application interactions: MobileWorld requires nearly twice as many task-completion steps on average (27.8 vs. 14.3) and includes far more multi-application tasks (62.2% vs. 9.5%) compared to AndroidWorld. Second, MobileWorld extends beyond standard GUI manipulation by introducing novel task categories, including agent-user interaction and MCP-augmented tasks. To ensure robust evaluation, we provide snapshot-based container environment and precise functional verifications, including backend database inspection and task callback APIs. We further develop a planner-executor agentic framework with extended action spaces to support user interactions and MCP calls. Our results reveal a sharp performance drop compared to AndroidWorld, with the best agentic framework and end-to-end model achieving 51.7% and 20.9% success rates, respectively. Our analysis shows that current models struggle significantly with user interaction and MCP calls, offering a strategic roadmap toward more robust, next-generation mobile intelligence.

MobileWorld: Avaliação de Agentes Móveis Autónomos em Ambientes de Interação Agente-Usuário e Ambientes Aumentados por MCP

MobileWorld: Benchmarking Autonomous Mobile Agents in Agent-User Interactive, and MCP-Augmented Environments

Resumo

Support