MobileWorld: Valutazione di Agenti Mobili Autonomi in Ambienti Interattivi Agente-Utente e Ambienti Potenziati MCP
MobileWorld: Benchmarking Autonomous Mobile Agents in Agent-User Interactive, and MCP-Augmented Environments
December 22, 2025
Autori: Quyu Kong, Xu Zhang, Zhenyu Yang, Nolan Gao, Chen Liu, Panrong Tong, Chenglin Cai, Hanzhang Zhou, Jianan Zhang, Liangyu Chen, Zhidan Liu, Steven Hoi, Yue Wang
cs.AI
Abstract
Tra i benchmark esistenti per l'utilizzo mobile online, AndroidWorld è emerso come punto di riferimento dominante grazie al suo ambiente riproducibile e alla valutazione deterministica; tuttavia, i recenti agenti che raggiungono tassi di successo superiori al 90% ne indicano la saturazione e motivano la necessità di un benchmark più impegnativo. Inoltre, il suo ambiente manca di categorie applicative chiave, come l'e-commerce e la comunicazione aziendale, e non riflette scenari realistici di utilizzo mobile, caratterizzati da istruzioni utente vaghe e utilizzo ibrido di strumenti. Per colmare questa lacuna, introduciamo MobileWorld, un benchmark sostanzialmente più impegnativo, progettato per riflettere meglio l'utilizzo mobile nel mondo reale, comprendente 201 task su 20 applicazioni, mantenendo lo stesso livello di valutazione riproducibile di AndroidWorld.
La difficoltà di MobileWorld è duplice. In primo luogo, enfatizza task a lungo termine con interazioni cross-applicazione: MobileWorld richiede in media quasi il doppio dei passi per il completamento di un task (27,8 vs 14,3) e include una percentuale molto più elevata di task multi-applicazione (62,2% vs 9,5%) rispetto ad AndroidWorld. In secondo luogo, MobileWorld si estende oltre la manipuzione standard dell'interfaccia grafica introducendo nuove categorie di task, incluse l'interazione agente-utente e i task potenziati da MCP.
Per garantire una valutazione robusta, forniamo un ambiente container basato su snapshot e verifiche funzionali precise, inclusa l'ispezione del database di backend e API di callback per i task. Abbiamo inoltre sviluppato un framework agentico planner-executor con spazi d'azione estesi per supportare le interazioni utente e le chiamate MCP. I nostri risultati rivelano un netto calo delle prestazioni rispetto ad AndroidWorld, con il miglior framework agentico e il modello end-to-end che raggiungono rispettivamente tassi di successo del 51,7% e del 20,9%. La nostra analisi mostra che i modelli attuali hanno notevoli difficoltà con l'interazione utente e le chiamate MCP, offrendo una roadmap strategica verso una prossima generazione di intelligenza mobile più robusta.
English
Among existing online mobile-use benchmarks, AndroidWorld has emerged as the dominant benchmark due to its reproducible environment and deterministic evaluation; however, recent agents achieving over 90% success rates indicate its saturation and motivate the need for a more challenging benchmark. In addition, its environment lacks key application categories, such as e-commerce and enterprise communication, and does not reflect realistic mobile-use scenarios characterized by vague user instructions and hybrid tool usage. To bridge this gap, we introduce MobileWorld, a substantially more challenging benchmark designed to better reflect real-world mobile usage, comprising 201 tasks across 20 applications, while maintaining the same level of reproducible evaluation as AndroidWorld. The difficulty of MobileWorld is twofold. First, it emphasizes long-horizon tasks with cross-application interactions: MobileWorld requires nearly twice as many task-completion steps on average (27.8 vs. 14.3) and includes far more multi-application tasks (62.2% vs. 9.5%) compared to AndroidWorld. Second, MobileWorld extends beyond standard GUI manipulation by introducing novel task categories, including agent-user interaction and MCP-augmented tasks. To ensure robust evaluation, we provide snapshot-based container environment and precise functional verifications, including backend database inspection and task callback APIs. We further develop a planner-executor agentic framework with extended action spaces to support user interactions and MCP calls. Our results reveal a sharp performance drop compared to AndroidWorld, with the best agentic framework and end-to-end model achieving 51.7% and 20.9% success rates, respectively. Our analysis shows that current models struggle significantly with user interaction and MCP calls, offering a strategic roadmap toward more robust, next-generation mobile intelligence.