ChatPaper.aiChatPaper

MobileWorldBench: モバイルエージェントのための意味的世界モデリングに向けて

MobileWorldBench: Towards Semantic World Modeling For Mobile Agents

December 16, 2025
著者: Shufan Li, Konstantinos Kallidromitis, Akash Gokul, Yusuke Kato, Kazuki Kozuka, Aditya Grover
cs.AI

要旨

ワールドモデルは、エンボディエージェントのタスク性能向上において大きな有用性を示してきた。従来の研究は主にピクセル空間のワールドモデルに焦点を当ててきたが、これらのアプローチはGUI設定において実用的な限界に直面する。将来状態における複雑な視覚要素の予測が往々にして困難であるためだ。本研究では、GUIエージェント向けのワールドモデリングの代替的定式化を探求する。具体的には、状態遷移を生のピクセル予測ではなく自然言語で記述する手法である。まず、視覚言語モデル(VLM)がモバイルGUIエージェント向けワールドモデルとして機能する能力を評価するベンチマーク「MobileWorldBench」を導入する。次に、140万サンプルからなる大規模データセット「MobileWorld」を公開し、VLMのワールドモデリング能力を大幅に改善する。最後に、VLMワールドモデルをモバイルエージェントの計画フレームワークに統合する新規フレームワークを提案し、セマンティックなワールドモデルがタスク成功率を向上させることでモバイルエージェントに直接利益をもたらすことを実証する。コードとデータセットはhttps://github.com/jacklishufan/MobileWorld で公開されている。
English
World models have shown great utility in improving the task performance of embodied agents. While prior work largely focuses on pixel-space world models, these approaches face practical limitations in GUI settings, where predicting complex visual elements in future states is often difficult. In this work, we explore an alternative formulation of world modeling for GUI agents, where state transitions are described in natural language rather than predicting raw pixels. First, we introduce MobileWorldBench, a benchmark that evaluates the ability of vision-language models (VLMs) to function as world models for mobile GUI agents. Second, we release MobileWorld, a large-scale dataset consisting of 1.4M samples, that significantly improves the world modeling capabilities of VLMs. Finally, we propose a novel framework that integrates VLM world models into the planning framework of mobile agents, demonstrating that semantic world models can directly benefit mobile agents by improving task success rates. The code and dataset is available at https://github.com/jacklishufan/MobileWorld
PDF21December 18, 2025