MobileWorld: 에이전트-사용자 상호작용 및 MCP-강화 환경에서 자율 모바일 에이전트 성능 평가
MobileWorld: Benchmarking Autonomous Mobile Agents in Agent-User Interactive, and MCP-Augmented Environments
December 22, 2025
저자: Quyu Kong, Xu Zhang, Zhenyu Yang, Nolan Gao, Chen Liu, Panrong Tong, Chenglin Cai, Hanzhang Zhou, Jianan Zhang, Liangyu Chen, Zhidan Liu, Steven Hoi, Yue Wang
cs.AI
초록
기존 온라인 모바일 사용 벤치마크 중 AndroidWorld는 재현 가능한 환경과 결정론적 평가로 인해 가장 널리 사용되는 벤치마크로 자리잡았습니다. 그러나 최근 에이전트들이 90% 이상의 성공률을 달성하며 포화 상태에 도달함에 따라 더욱 도전적인 벤치마크의 필요성이 대두되었습니다. 또한 AndroidWorld 환경은 전자상거래 및 기업용 커뮤니케이션과 같은 핵심 애플리케이션 범주가 부족하고, 모호한 사용자 지시와 복합적 도구 사용으로 특징지어지는 현실적인 모바일 사용 시나리오를 반영하지 못합니다. 이러한 격차를 해소하기 위해 우리는 AndroidWorld와 동일한 수준의 재현 가능한 평가를 유지하면서 실제 모바일 사용을 더 잘 반영하도록 설계된, 20개 애플리케이션에 걸친 201개 작업으로 구성된 훨씬 더 도전적인 벤치마크인 MobileWorld를 소개합니다. MobileWorld의 난이도는 두 측면에서 나타납니다. 첫째, 애플리케이션 간 상호작용을 수반하는 장기 과제를 강조합니다: MobileWorld는 평균 작업 완료 단계 수가 AndroidWorld 대비 약 2배(27.8 vs. 14.3)에 달하며, 다중 애플리케이션 작업 비율도 훨씬 더 높습니다(62.2% vs. 9.5%). 둘째, MobileWorld는 표준 GUI 조작을 넘어 에이전트-사용자 상호작용 및 MCP(Mobile Communication Protocol) 강화 작업을 포함한 새로운 작업 범주를 도입합니다. 강력한 평가를 보장하기 위해 스냅샷 기반 컨테이너 환경과 백엔드 데이터베이스 검사 및 작업 콜백 API를 포함한 정밀한 기능 검증을 제공합니다. 우리는 또한 사용자 상호작용과 MCP 호출을 지원하기 위해 확장된 액션 공간을 가진 플래너-실행자 에이전트 프레임워크를 추가로 개발했습니다. 실험 결과 AndroidWorld 대비 성능이 급격히 하락했으며, 최고의 에이전트 프레임워크와 엔드투엔드 모델이 각각 51.7%, 20.9%의 성공률을 기록했습니다. 우리의 분석은 현재 모델들이 사용자 상호작용 및 MCP 호출에서 상당한 어려움을 겪고 있음을 보여주며, 이는 더욱 강력한 차세대 모바일 인텔리전스를 위한 전략적 로드맵을 제시합니다.
English
Among existing online mobile-use benchmarks, AndroidWorld has emerged as the dominant benchmark due to its reproducible environment and deterministic evaluation; however, recent agents achieving over 90% success rates indicate its saturation and motivate the need for a more challenging benchmark. In addition, its environment lacks key application categories, such as e-commerce and enterprise communication, and does not reflect realistic mobile-use scenarios characterized by vague user instructions and hybrid tool usage. To bridge this gap, we introduce MobileWorld, a substantially more challenging benchmark designed to better reflect real-world mobile usage, comprising 201 tasks across 20 applications, while maintaining the same level of reproducible evaluation as AndroidWorld. The difficulty of MobileWorld is twofold. First, it emphasizes long-horizon tasks with cross-application interactions: MobileWorld requires nearly twice as many task-completion steps on average (27.8 vs. 14.3) and includes far more multi-application tasks (62.2% vs. 9.5%) compared to AndroidWorld. Second, MobileWorld extends beyond standard GUI manipulation by introducing novel task categories, including agent-user interaction and MCP-augmented tasks. To ensure robust evaluation, we provide snapshot-based container environment and precise functional verifications, including backend database inspection and task callback APIs. We further develop a planner-executor agentic framework with extended action spaces to support user interactions and MCP calls. Our results reveal a sharp performance drop compared to AndroidWorld, with the best agentic framework and end-to-end model achieving 51.7% and 20.9% success rates, respectively. Our analysis shows that current models struggle significantly with user interaction and MCP calls, offering a strategic roadmap toward more robust, next-generation mobile intelligence.