ChatPaper.aiChatPaper

MobileWorld : Évaluation des agents mobiles autonomes dans des environnements interactifs agent-utilisateur et augmentés par MCP

MobileWorld: Benchmarking Autonomous Mobile Agents in Agent-User Interactive, and MCP-Augmented Environments

December 22, 2025
papers.authors: Quyu Kong, Xu Zhang, Zhenyu Yang, Nolan Gao, Chen Liu, Panrong Tong, Chenglin Cai, Hanzhang Zhou, Jianan Zhang, Liangyu Chen, Zhidan Liu, Steven Hoi, Yue Wang
cs.AI

papers.abstract

Parmi les benchmarks existants pour l'utilisation mobile en ligne, AndroidWorld s'est imposé comme la référence dominante grâce à son environnement reproductible et son évaluation déterministe. Cependant, les agents récents atteignant des taux de réussite supérieurs à 90% indiquent sa saturation et motivent la nécessité d'un benchmark plus exigeant. De plus, son environnement manque de catégories d'applications clés, comme le commerce électronique et la communication d'entreprise, et ne reflète pas les scénarios réalistes d'utilisation mobile, caractérisés par des instructions utilisateur vagues et une utilisation hybride des outils. Pour combler cette lacune, nous présentons MobileWorld, un benchmark substantiellement plus difficile conçu pour mieux refléter l'utilisation mobile réelle, comprenant 201 tâches réparties sur 20 applications, tout en maintenant le même niveau d'évaluation reproductible qu'AndroidWorld. La difficulté de MobileWorld est double. Premièrement, il met l'accent sur les tâches à long horizon avec des interactions inter-applications : MobileWorld nécessite près de deux fois plus d'étapes pour accomplir une tâche en moyenne (27,8 contre 14,3) et comprend beaucoup plus de tâches multi-applications (62,2 % contre 9,5 %) par rapport à AndroidWorld. Deuxièmement, MobileWorld va au-delà de la simple manipulation d'interface graphique en introduisant de nouvelles catégories de tâches, incluant l'interaction agent-utilisateur et les tâches enrichies par MCP. Pour garantir une évaluation robuste, nous fournissons un environnement conteneurisé basé sur des snapshots et des vérifications fonctionnelles précises, incluant l'inspection de bases de données backend et des API de rappel de tâches. Nous développons en outre un framework agentique planificateur-exécuteur avec des espaces d'action étendus pour supporter les interactions utilisateur et les appels MCP. Nos résultats révèlent une chute brutale des performances par rapport à AndroidWorld, avec les meilleurs framework agentique et modèle end-to-end atteignant respectivement 51,7 % et 20,9 % de taux de réussite. Notre analyse montre que les modèles actuels éprouvent de grandes difficultés avec l'interaction utilisateur et les appels MCP, offrant ainsi une feuille de route stratégique vers une intelligence mobile nouvelle génération plus robuste.
English
Among existing online mobile-use benchmarks, AndroidWorld has emerged as the dominant benchmark due to its reproducible environment and deterministic evaluation; however, recent agents achieving over 90% success rates indicate its saturation and motivate the need for a more challenging benchmark. In addition, its environment lacks key application categories, such as e-commerce and enterprise communication, and does not reflect realistic mobile-use scenarios characterized by vague user instructions and hybrid tool usage. To bridge this gap, we introduce MobileWorld, a substantially more challenging benchmark designed to better reflect real-world mobile usage, comprising 201 tasks across 20 applications, while maintaining the same level of reproducible evaluation as AndroidWorld. The difficulty of MobileWorld is twofold. First, it emphasizes long-horizon tasks with cross-application interactions: MobileWorld requires nearly twice as many task-completion steps on average (27.8 vs. 14.3) and includes far more multi-application tasks (62.2% vs. 9.5%) compared to AndroidWorld. Second, MobileWorld extends beyond standard GUI manipulation by introducing novel task categories, including agent-user interaction and MCP-augmented tasks. To ensure robust evaluation, we provide snapshot-based container environment and precise functional verifications, including backend database inspection and task callback APIs. We further develop a planner-executor agentic framework with extended action spaces to support user interactions and MCP calls. Our results reveal a sharp performance drop compared to AndroidWorld, with the best agentic framework and end-to-end model achieving 51.7% and 20.9% success rates, respectively. Our analysis shows that current models struggle significantly with user interaction and MCP calls, offering a strategic roadmap toward more robust, next-generation mobile intelligence.
PDF72December 24, 2025