ChatPaper.aiChatPaper

MobileWorldBench: 모바일 에이전트를 위한 의미론적 세계 모델링을 향하여

MobileWorldBench: Towards Semantic World Modeling For Mobile Agents

December 16, 2025
저자: Shufan Li, Konstantinos Kallidromitis, Akash Gokul, Yusuke Kato, Kazuki Kozuka, Aditya Grover
cs.AI

초록

월드 모델은 구현 에이전트의 작업 성능 향상에 큰 효과를 입증해 왔습니다. 기존 연구는 주로 픽셀 공간 월드 모델에 집중했으나, 이러한 접근법은 미래 상태에서 복잡한 시각 요소를 예측하기 어려운 GUI 환경에서 실용적인 한계에 직면합니다. 본 연구에서는 GUI 에이전트를 위한 월드 모델링의 대안적 형식을 탐구하며, 상태 전이를 원시 픽셀 예측이 아닌 자연어로 기술합니다. 첫째, 비전-언어 모델(VLM)이 모바일 GUI 에이전트의 월드 모델로 기능하는 능력을 평가하는 벤치마크인 MobileWorldBench을 소개합니다. 둘째, VLM의 월드 모델링 능력을 크게 향상시키는 140만 개 샘플로 구성된 대규모 데이터셋 MobileWorld를 공개합니다. 마지막으로, VLM 월드 모델을 모바일 에이전트의 계획 프레임워크에 통합하는 새로운 프레임워크를 제안하며, 의미론적 월드 모델이 작업 성공률 향상을 통해 모바일 에이전트에 직접적으로 기여할 수 있음을 입증합니다. 코드와 데이터셋은 https://github.com/jacklishufan/MobileWorld에서 이용 가능합니다.
English
World models have shown great utility in improving the task performance of embodied agents. While prior work largely focuses on pixel-space world models, these approaches face practical limitations in GUI settings, where predicting complex visual elements in future states is often difficult. In this work, we explore an alternative formulation of world modeling for GUI agents, where state transitions are described in natural language rather than predicting raw pixels. First, we introduce MobileWorldBench, a benchmark that evaluates the ability of vision-language models (VLMs) to function as world models for mobile GUI agents. Second, we release MobileWorld, a large-scale dataset consisting of 1.4M samples, that significantly improves the world modeling capabilities of VLMs. Finally, we propose a novel framework that integrates VLM world models into the planning framework of mobile agents, demonstrating that semantic world models can directly benefit mobile agents by improving task success rates. The code and dataset is available at https://github.com/jacklishufan/MobileWorld
PDF21December 18, 2025