MobileWorld: 自律モバイルエージェントのエージェント-ユーザー連携およびMCP拡張環境におけるベンチマーキング
MobileWorld: Benchmarking Autonomous Mobile Agents in Agent-User Interactive, and MCP-Augmented Environments
December 22, 2025
著者: Quyu Kong, Xu Zhang, Zhenyu Yang, Nolan Gao, Chen Liu, Panrong Tong, Chenglin Cai, Hanzhang Zhou, Jianan Zhang, Liangyu Chen, Zhidan Liu, Steven Hoi, Yue Wang
cs.AI
要旨
既存のモバイル操作ベンチマークにおいて、AndroidWorldは再現可能な環境と決定論的評価により主流の地位を確立してきた。しかし、最近のエージェントが90%を超える成功率を達成していることは、同ベンチマークの飽和を示しており、より挑戦的なベンチマークの必要性を動機付けている。さらに、その環境はEコマースや企業間コミュニケーションといった主要アプリケーションカテゴリを欠いており、曖昧なユーザー指示と複合的なツール使用を特徴とする現実的なモバイル利用シナリオを反映していない。この課題を解決するため、我々はMobileWorldを提案する。AndroidWorldと同水準の再現可能な評価を維持しつつ、現実世界のモバイル利用をより適切に反映する、大幅に難易度の高いベンチマークであり、20のアプリケーションにわたる201のタスクで構成される。MobileWorldの難易度は二つの側面からなる。第一に、アプリケーション間連携を要する長期タスクを重視している:AndroidWorldと比較して、タスク完了までの平均ステップ数が約2倍(27.8対14.3)、複数アプリケーションを要するタスクの割合が大幅に高い(62.2%対9.5%)という特徴を持つ。第二に、標準的なGUI操作を超えて、エージェントとユーザーの対話やMCP拡張タスクといった新たなタスクカテゴリを導入している。堅牢な評価を確保するため、スナップショットベースのコンテナ環境と、バックエンドデータベース検査やタスクコールバックAPIを含む精密な機能検証を提供する。さらに、ユーザー対話とMCP呼び出しをサポートするため、拡張されたアクション空間を備えたプランナー・エグゼキューター型エージェントフレームワークを開発した。評価結果はAndroidWorldと比較して劇的な性能低下を示し、最高性能のエージェントフレームワークとエンドツーエンドモデルでは、それぞれ51.7%と20.9%の成功率となった。分析により、現行モデルはユーザー対話とMCP呼び出しに著しく苦戦することが明らかになり、より堅牢な次世代モバイル知能に向けた戦略的なロードマップを提供する。
English
Among existing online mobile-use benchmarks, AndroidWorld has emerged as the dominant benchmark due to its reproducible environment and deterministic evaluation; however, recent agents achieving over 90% success rates indicate its saturation and motivate the need for a more challenging benchmark. In addition, its environment lacks key application categories, such as e-commerce and enterprise communication, and does not reflect realistic mobile-use scenarios characterized by vague user instructions and hybrid tool usage. To bridge this gap, we introduce MobileWorld, a substantially more challenging benchmark designed to better reflect real-world mobile usage, comprising 201 tasks across 20 applications, while maintaining the same level of reproducible evaluation as AndroidWorld. The difficulty of MobileWorld is twofold. First, it emphasizes long-horizon tasks with cross-application interactions: MobileWorld requires nearly twice as many task-completion steps on average (27.8 vs. 14.3) and includes far more multi-application tasks (62.2% vs. 9.5%) compared to AndroidWorld. Second, MobileWorld extends beyond standard GUI manipulation by introducing novel task categories, including agent-user interaction and MCP-augmented tasks. To ensure robust evaluation, we provide snapshot-based container environment and precise functional verifications, including backend database inspection and task callback APIs. We further develop a planner-executor agentic framework with extended action spaces to support user interactions and MCP calls. Our results reveal a sharp performance drop compared to AndroidWorld, with the best agentic framework and end-to-end model achieving 51.7% and 20.9% success rates, respectively. Our analysis shows that current models struggle significantly with user interaction and MCP calls, offering a strategic roadmap toward more robust, next-generation mobile intelligence.