MobileWorld: Benchmarken van Autonome Mobiele Agenten in Interactieve Agent-Gebruiker- en MCP-uitgebreide Omgevingen
MobileWorld: Benchmarking Autonomous Mobile Agents in Agent-User Interactive, and MCP-Augmented Environments
December 22, 2025
Auteurs: Quyu Kong, Xu Zhang, Zhenyu Yang, Nolan Gao, Chen Liu, Panrong Tong, Chenglin Cai, Hanzhang Zhou, Jianan Zhang, Liangyu Chen, Zhidan Liu, Steven Hoi, Yue Wang
cs.AI
Samenvatting
Onder de bestaande online benchmarks voor mobiel gebruik is AndroidWorld uitgegroeid tot de dominante benchmark vanwege zijn reproduceerbare omgeving en deterministische evaluatie. Recente agents die slagingspercentages van meer dan 90% behalen, duiden echter op verzadiging en benadrukken de behoefte aan een uitdagendere benchmark. Bovendien ontbreken in zijn omgeving cruciale applicatiecategorieën, zoals e-commerce en zakelijke communicatie, en weerspiegelt deze geen realistische mobiele gebruiksscenario's die worden gekenmerkt door vage gebruikersinstructies en hybride toolgebruik. Om deze kloof te overbruggen, introduceren we MobileWorld, een aanzienlijk uitdagendere benchmark die is ontworpen om het werkelijke mobiele gebruik beter te reflecteren. Deze omvat 201 taken verspreid over 20 applicaties, waarbij hetzelfde niveau van reproduceerbare evaluatie als AndroidWorld wordt gehandhaafd.
De moeilijkheidsgraad van MobileWorld is tweeledig. Ten eerste legt de benchmark de nadruk op taken met een lange tijdshorizon en interacties tussen applicaties: MobileWorld vereist gemiddeld bijna twee keer zoveel stappen om een taak te voltooien (27,8 versus 14,3) en omvat aanzienlijk meer multi-applicatietaken (62,2% versus 9,5%) in vergelijking met AndroidWorld. Ten tweede gaat MobileWorld verder dan standaard GUI-manipulatie door nieuwe taakcategorieën te introduceren, waaronder agent-gebruikerinteractie en MCP-versterkte taken.
Om een robuuste evaluatie te garanderen, bieden we een op snapshots gebaseerde containeromgeving en nauwkeurige functionele verificaties, inclusief inspectie van backend-databases en taakcallback-API's. We ontwikkelen verder een planner-executor agentic framework met uitgebreide actieruimtes om gebruikersinteracties en MCP-aanroepen te ondersteunen. Onze resultaten tonen een scherpe daling in prestaties vergeleken met AndroidWorld, waarbij het beste agentic framework en het end-to-end model respectievelijk slagingspercentages van 51,7% en 20,9% behalen. Onze analyse toont aan dat huidige modellen aanzienlijke moeite hebben met gebruikersinteractie en MCP-aanroepen, wat een strategische routekaart biedt naar robuustere, next-generation mobiele intelligentie.
English
Among existing online mobile-use benchmarks, AndroidWorld has emerged as the dominant benchmark due to its reproducible environment and deterministic evaluation; however, recent agents achieving over 90% success rates indicate its saturation and motivate the need for a more challenging benchmark. In addition, its environment lacks key application categories, such as e-commerce and enterprise communication, and does not reflect realistic mobile-use scenarios characterized by vague user instructions and hybrid tool usage. To bridge this gap, we introduce MobileWorld, a substantially more challenging benchmark designed to better reflect real-world mobile usage, comprising 201 tasks across 20 applications, while maintaining the same level of reproducible evaluation as AndroidWorld. The difficulty of MobileWorld is twofold. First, it emphasizes long-horizon tasks with cross-application interactions: MobileWorld requires nearly twice as many task-completion steps on average (27.8 vs. 14.3) and includes far more multi-application tasks (62.2% vs. 9.5%) compared to AndroidWorld. Second, MobileWorld extends beyond standard GUI manipulation by introducing novel task categories, including agent-user interaction and MCP-augmented tasks. To ensure robust evaluation, we provide snapshot-based container environment and precise functional verifications, including backend database inspection and task callback APIs. We further develop a planner-executor agentic framework with extended action spaces to support user interactions and MCP calls. Our results reveal a sharp performance drop compared to AndroidWorld, with the best agentic framework and end-to-end model achieving 51.7% and 20.9% success rates, respectively. Our analysis shows that current models struggle significantly with user interaction and MCP calls, offering a strategic roadmap toward more robust, next-generation mobile intelligence.