ChatPaper.aiChatPaper

MobileWorld: Оценка автономных мобильных агентов в интерактивных средах взаимодействия агент-пользователь и средах, расширенных MCP

MobileWorld: Benchmarking Autonomous Mobile Agents in Agent-User Interactive, and MCP-Augmented Environments

December 22, 2025
Авторы: Quyu Kong, Xu Zhang, Zhenyu Yang, Nolan Gao, Chen Liu, Panrong Tong, Chenglin Cai, Hanzhang Zhou, Jianan Zhang, Liangyu Chen, Zhidan Liu, Steven Hoi, Yue Wang
cs.AI

Аннотация

Среди существующих онлайн-бенчмарков для мобильных устройств AndroidWorld стал доминирующим благодаря воспроизводимой среде и детерминистической оценке. Однако недавние агенты, достигшие успеха более чем в 90% случаев, указывают на его насыщаемость и подчеркивают необходимость создания более сложного бенчмарка. Кроме того, его среда lacks ключевых категорий приложений, таких как электронная коммерция и корпоративная коммуникация, и не отражает реалистичные сценарии мобильного использования, для которых характерны нечеткие пользовательские инструкции и гибридное использование инструментов. Чтобы устранить этот пробел, мы представляем MobileWorld — значительно более сложный бенчмарк, разработанный для лучшего отражения реального мобильного использования. Он включает 201 задачу в 20 приложениях, сохраняя при том же уровне воспроизводимость оценки, что и AndroidWorld. Сложность MobileWorld двунаправлена. Во-первых, он делает акцент на долгосрочных задачах с межприложенными взаимодействиями: MobileWorld требует в среднем почти вдвое больше шагов для выполнения задачи (27.8 против 14.3) и включает значительно больше многоприложных задач (62.2% против 9.5%) по сравнению с AndroidWorld. Во-вторых, MobileWorld выходит за рамки стандартных манипуляций с GUI, вводя новые категории задач, включая взаимодействие агента с пользователем и задачи, расширенные MCP. Для обеспечения надежной оценки мы предоставляем среду на основе снимков контейнеров и точные функциональные проверки, включая инспекцию бэкенд-баз данных и API обратных вызовов задач. Мы также разработали планерно-исполнительный агентский фреймворк с расширенными пространствами действий для поддержки пользовательских взаимодействий и MCP-вызовов. Наши результаты демонстрируют резкое падение производительности по сравнению с AndroidWorld: лучший агентский фреймворк и end-to-end модель достигают успеха лишь в 51.7% и 20.9% случаев соответственно. Наш анализ показывает, что современные модели испытывают значительные трудности с пользовательским взаимодействием и MCP-вызовами, что определяет стратегический путь к созданию более надежного мобильного интеллекта следующего поколения.
English
Among existing online mobile-use benchmarks, AndroidWorld has emerged as the dominant benchmark due to its reproducible environment and deterministic evaluation; however, recent agents achieving over 90% success rates indicate its saturation and motivate the need for a more challenging benchmark. In addition, its environment lacks key application categories, such as e-commerce and enterprise communication, and does not reflect realistic mobile-use scenarios characterized by vague user instructions and hybrid tool usage. To bridge this gap, we introduce MobileWorld, a substantially more challenging benchmark designed to better reflect real-world mobile usage, comprising 201 tasks across 20 applications, while maintaining the same level of reproducible evaluation as AndroidWorld. The difficulty of MobileWorld is twofold. First, it emphasizes long-horizon tasks with cross-application interactions: MobileWorld requires nearly twice as many task-completion steps on average (27.8 vs. 14.3) and includes far more multi-application tasks (62.2% vs. 9.5%) compared to AndroidWorld. Second, MobileWorld extends beyond standard GUI manipulation by introducing novel task categories, including agent-user interaction and MCP-augmented tasks. To ensure robust evaluation, we provide snapshot-based container environment and precise functional verifications, including backend database inspection and task callback APIs. We further develop a planner-executor agentic framework with extended action spaces to support user interactions and MCP calls. Our results reveal a sharp performance drop compared to AndroidWorld, with the best agentic framework and end-to-end model achieving 51.7% and 20.9% success rates, respectively. Our analysis shows that current models struggle significantly with user interaction and MCP calls, offering a strategic roadmap toward more robust, next-generation mobile intelligence.
PDF72December 24, 2025