ChatPaper.aiChatPaper

MobileWorld: Benchmarking autonomer mobiler Agenten in interaktiven Agent-Nutzer- und MCP-augmentierten Umgebungen

MobileWorld: Benchmarking Autonomous Mobile Agents in Agent-User Interactive, and MCP-Augmented Environments

December 22, 2025
papers.authors: Quyu Kong, Xu Zhang, Zhenyu Yang, Nolan Gao, Chen Liu, Panrong Tong, Chenglin Cai, Hanzhang Zhou, Jianan Zhang, Liangyu Chen, Zhidan Liu, Steven Hoi, Yue Wang
cs.AI

papers.abstract

Unter den bestehenden Online-Benchmarks für die Mobilgerätenutzung hat sich AndroidWorld aufgrund seiner reproduzierbaren Umgebung und deterministischen Evaluation als dominierender Benchmark etabliert. Jüngste Agenten mit Erfolgsquoten von über 90 % deuten jedoch auf eine Sättigung hin und unterstreichen die Notwendigkeit eines anspruchsvolleren Benchmarks. Zudem fehlen in seiner Umgebung wichtige Anwendungskategorien wie E-Commerce und Unternehmenskommunikation, und sie bildet keine realistischen Mobilnutzungsszenarien ab, die durch vage Benutzeranweisungen und hybriden Tool-Einsatz gekennzeichnet sind. Um diese Lücke zu schließen, stellen wir MobileWorld vor, einen deutlich anspruchsvolleren Benchmark, der die reale Mobilnutzung besser widerspiegelt. Er umfasst 201 Aufgaben über 20 Anwendungen hinweg und behält dabei das gleiche Maß an reproduzierbarer Evaluation wie AndroidWorld bei. Die Schwierigkeit von MobileWorld ist zweigeteilt. Erstens legt es den Schwerpunkt auf langfristige Aufgaben mit anwendungsübergreifenden Interaktionen: MobileWorld erfordert im Durchschnitt fast doppelt so viele Aufgabenschritte (27,8 vs. 14,3) und enthält deutlich mehr anwendungsübergreifende Aufgaben (62,2 % vs. 9,5 %) im Vergleich zu AndroidWorld. Zweitens geht MobileWorld über standardmäßige GUI-Manipulation hinaus, indem es neue Aufgabenkategorien einführt, darunter Agent-Benutzer-Interaktion und MCP-erweiterte Aufgaben. Um eine robuste Evaluation zu gewährleisten, bieten wir eine containerbasierte Snapshot-Umgebung und präzise Funktionsverifikationen, einschließlich Backend-Datenbankprüfungen und Task-Callback-APIs. Wir entwickeln weiterhin ein Planner-Executor-Agenten-Framework mit erweiterten Aktionsräumen zur Unterstützung von Benutzerinteraktionen und MCP-Aufrufen. Unsere Ergebnisse zeigen einen deutlichen Leistungseinbruch im Vergleich zu AndroidWorld – die besten Agenten-Frameworks und End-to-End-Modelle erreichen Erfolgsquoten von lediglich 51,7 % bzw. 20,9 %. Unsere Analyse zeigt, dass aktuelle Modelle erheblich mit Benutzerinteraktionen und MCP-Aufrufen kämpfen, was eine strategische Roadmap für robustere Mobilintelligenz der nächsten Generation aufzeigt.
English
Among existing online mobile-use benchmarks, AndroidWorld has emerged as the dominant benchmark due to its reproducible environment and deterministic evaluation; however, recent agents achieving over 90% success rates indicate its saturation and motivate the need for a more challenging benchmark. In addition, its environment lacks key application categories, such as e-commerce and enterprise communication, and does not reflect realistic mobile-use scenarios characterized by vague user instructions and hybrid tool usage. To bridge this gap, we introduce MobileWorld, a substantially more challenging benchmark designed to better reflect real-world mobile usage, comprising 201 tasks across 20 applications, while maintaining the same level of reproducible evaluation as AndroidWorld. The difficulty of MobileWorld is twofold. First, it emphasizes long-horizon tasks with cross-application interactions: MobileWorld requires nearly twice as many task-completion steps on average (27.8 vs. 14.3) and includes far more multi-application tasks (62.2% vs. 9.5%) compared to AndroidWorld. Second, MobileWorld extends beyond standard GUI manipulation by introducing novel task categories, including agent-user interaction and MCP-augmented tasks. To ensure robust evaluation, we provide snapshot-based container environment and precise functional verifications, including backend database inspection and task callback APIs. We further develop a planner-executor agentic framework with extended action spaces to support user interactions and MCP calls. Our results reveal a sharp performance drop compared to AndroidWorld, with the best agentic framework and end-to-end model achieving 51.7% and 20.9% success rates, respectively. Our analysis shows that current models struggle significantly with user interaction and MCP calls, offering a strategic roadmap toward more robust, next-generation mobile intelligence.
PDF72December 24, 2025