MobileWorld: Avaliação de Agentes Móveis Autónomos em Ambientes de Interação Agente-Usuário e Ambientes Aumentados por MCP
MobileWorld: Benchmarking Autonomous Mobile Agents in Agent-User Interactive, and MCP-Augmented Environments
December 22, 2025
Autores: Quyu Kong, Xu Zhang, Zhenyu Yang, Nolan Gao, Chen Liu, Panrong Tong, Chenglin Cai, Hanzhang Zhou, Jianan Zhang, Liangyu Chen, Zhidan Liu, Steven Hoi, Yue Wang
cs.AI
Resumo
Entre os benchmarks existentes para uso móvel online, o AndroidWorld emergiu como o benchmark dominante devido ao seu ambiente reproduzível e avaliação determinística; no entanto, os recentes agentes que alcançam taxas de sucesso superiores a 90% indicam sua saturação e motivam a necessidade de um benchmark mais desafiador. Além disso, seu ambiente carece de categorias de aplicativos-chave, como comércio eletrônico e comunicação empresarial, e não reflete cenários realistas de uso móvel, caracterizados por instruções vagas do usuário e uso híbrido de ferramentas. Para preencher essa lacuna, introduzimos o MobileWorld, um benchmark substancialmente mais desafiador, projetado para refletir melhor o uso real de dispositivos móveis, compreendendo 201 tarefas em 20 aplicativos, mantendo o mesmo nível de avaliação reproduzível do AndroidWorld.
A dificuldade do MobileWorld é dupla. Primeiro, ele enfatiza tarefas de longo horizonte com interações entre aplicativos: o MobileWorld requer quase o dobro de etapas para conclusão de tarefas em média (27,8 vs. 14,3) e inclui muito mais tarefas multi-aplicativo (62,2% vs. 9,5%) em comparação com o AndroidWorld. Segundo, o MobileWorld vai além da manipulação padrão de GUI, introduzindo novas categorias de tarefas, incluindo interação agente-usuário e tarefas aumentadas por MCP.
Para garantir uma avaliação robusta, fornecemos um ambiente de contêiner baseado em snapshot e verificações funcionais precisas, incluindo inspeção de banco de dados backend e APIs de callback de tarefas. Desenvolvemos ainda uma estrutura agentiva planejador-executor com espaços de ação estendidos para suportar interações do usuário e chamadas MCP.
Nossos resultados revelam uma queda acentuada no desempenho em comparação com o AndroidWorld, com a melhor estrutura agentiva e o modelo end-to-end alcançando taxas de sucesso de 51,7% e 20,9%, respectivamente. Nossa análise mostra que os modelos atuais têm dificuldades significativas com a interação do usuário e chamadas MCP, oferecendo um roteiro estratégico para uma inteligência móvel de próxima geração mais robusta.
English
Among existing online mobile-use benchmarks, AndroidWorld has emerged as the dominant benchmark due to its reproducible environment and deterministic evaluation; however, recent agents achieving over 90% success rates indicate its saturation and motivate the need for a more challenging benchmark. In addition, its environment lacks key application categories, such as e-commerce and enterprise communication, and does not reflect realistic mobile-use scenarios characterized by vague user instructions and hybrid tool usage. To bridge this gap, we introduce MobileWorld, a substantially more challenging benchmark designed to better reflect real-world mobile usage, comprising 201 tasks across 20 applications, while maintaining the same level of reproducible evaluation as AndroidWorld. The difficulty of MobileWorld is twofold. First, it emphasizes long-horizon tasks with cross-application interactions: MobileWorld requires nearly twice as many task-completion steps on average (27.8 vs. 14.3) and includes far more multi-application tasks (62.2% vs. 9.5%) compared to AndroidWorld. Second, MobileWorld extends beyond standard GUI manipulation by introducing novel task categories, including agent-user interaction and MCP-augmented tasks. To ensure robust evaluation, we provide snapshot-based container environment and precise functional verifications, including backend database inspection and task callback APIs. We further develop a planner-executor agentic framework with extended action spaces to support user interactions and MCP calls. Our results reveal a sharp performance drop compared to AndroidWorld, with the best agentic framework and end-to-end model achieving 51.7% and 20.9% success rates, respectively. Our analysis shows that current models struggle significantly with user interaction and MCP calls, offering a strategic roadmap toward more robust, next-generation mobile intelligence.