MobileWorld: Evaluación de Agentes Móviles Autónomos en Entornos de Interacción Agente-Usuario y Aumentados por MCP
MobileWorld: Benchmarking Autonomous Mobile Agents in Agent-User Interactive, and MCP-Augmented Environments
December 22, 2025
Autores: Quyu Kong, Xu Zhang, Zhenyu Yang, Nolan Gao, Chen Liu, Panrong Tong, Chenglin Cai, Hanzhang Zhou, Jianan Zhang, Liangyu Chen, Zhidan Liu, Steven Hoi, Yue Wang
cs.AI
Resumen
Entre los benchmarks existentes para uso móvil en línea, AndroidWorld se ha consolidado como el estándar dominante debido a su entorno reproducible y evaluación determinista; sin embargo, los agentes recientes que alcanzan tasas de éxito superiores al 90% indican su saturación y motivan la necesidad de un benchmark más desafiante. Además, su entorno carece de categorías clave de aplicaciones, como comercio electrónico y comunicación empresarial, y no refleja escenarios realistas de uso móvil caracterizados por instrucciones de usuario vagas y uso híbrido de herramientas. Para cerrar esta brecha, presentamos MobileWorld, un benchmark sustancialmente más desafiante diseñado para reflejar mejor el uso móvil del mundo real, que comprende 201 tareas en 20 aplicaciones, manteniendo el mismo nivel de evaluación reproducible que AndroidWorld. La dificultad de MobileWorld es doble. Primero, enfatiza tareas de horizonte largo con interacciones entre aplicaciones: MobileWorld requiere casi el doble de pasos para completar tareas en promedio (27.8 vs. 14.3) e incluye muchas más tareas multi-aplicación (62.2% vs. 9.5%) en comparación con AndroidWorld. Segundo, MobileWorld va más allá de la manipulación estándar de GUI introduciendo nuevas categorías de tareas, incluyendo interacción agente-usuario y tareas aumentadas con MCP. Para garantizar una evaluación robusta, proporcionamos un entorno contenedor basado en snapshots y verificaciones funcionales precisas, incluyendo inspección de bases de datos backend y APIs de callback para tareas. Además, desarrollamos un framework agente planificador-ejecutor con espacios de acción extendidos para soportar interacciones de usuario y llamadas MCP. Nuestros resultados revelan una caída abrupta del rendimiento en comparación con AndroidWorld, con el mejor framework agente y modelo end-to-end alcanzando tasas de éxito del 51.7% y 20.9%, respectivamente. Nuestro análisis muestra que los modelos actuales tienen dificultades significativas con la interacción de usuario y las llamadas MCP, ofreciendo una hoja de ruta estratégica hacia una inteligencia móvil de próxima generación más robusta.
English
Among existing online mobile-use benchmarks, AndroidWorld has emerged as the dominant benchmark due to its reproducible environment and deterministic evaluation; however, recent agents achieving over 90% success rates indicate its saturation and motivate the need for a more challenging benchmark. In addition, its environment lacks key application categories, such as e-commerce and enterprise communication, and does not reflect realistic mobile-use scenarios characterized by vague user instructions and hybrid tool usage. To bridge this gap, we introduce MobileWorld, a substantially more challenging benchmark designed to better reflect real-world mobile usage, comprising 201 tasks across 20 applications, while maintaining the same level of reproducible evaluation as AndroidWorld. The difficulty of MobileWorld is twofold. First, it emphasizes long-horizon tasks with cross-application interactions: MobileWorld requires nearly twice as many task-completion steps on average (27.8 vs. 14.3) and includes far more multi-application tasks (62.2% vs. 9.5%) compared to AndroidWorld. Second, MobileWorld extends beyond standard GUI manipulation by introducing novel task categories, including agent-user interaction and MCP-augmented tasks. To ensure robust evaluation, we provide snapshot-based container environment and precise functional verifications, including backend database inspection and task callback APIs. We further develop a planner-executor agentic framework with extended action spaces to support user interactions and MCP calls. Our results reveal a sharp performance drop compared to AndroidWorld, with the best agentic framework and end-to-end model achieving 51.7% and 20.9% success rates, respectively. Our analysis shows that current models struggle significantly with user interaction and MCP calls, offering a strategic roadmap toward more robust, next-generation mobile intelligence.