MobileWorldBench: Auf dem Weg zur semantischen Weltmodellierung für mobile Agenten
MobileWorldBench: Towards Semantic World Modeling For Mobile Agents
December 16, 2025
papers.authors: Shufan Li, Konstantinos Kallidromitis, Akash Gokul, Yusuke Kato, Kazuki Kozuka, Aditya Grover
cs.AI
papers.abstract
Weltmodelle haben sich als äußerst nützlich erwiesen, um die Aufgabenleistung verkörperter Agenten zu verbessern. Während sich frühere Arbeiten weitgehend auf Pixel-basierte Weltmodelle konzentrierten, stoßen diese Ansätze in GUI-Umgebungen auf praktische Grenzen, da die Vorhersage komplexer visueller Elemente in zukünftigen Zuständen oft schwierig ist. In dieser Arbeit untersuchen wir eine alternative Formulierung der Weltmodellierung für GUI-Agenten, bei der Zustandsübergänge durch natürliche Sprache beschrieben werden, anstatt Rohpixel vorherzusagen. Erstens führen wir MobileWorldBench ein, einen Benchmark, der die Fähigkeit von Vision-Sprache-Modellen (VLMs) bewertet, als Weltmodelle für mobile GUI-Agenten zu fungieren. Zweitens veröffentlichen wir MobileWorld, einen umfangreichen Datensatz mit 1,4 Millionen Beispielen, der die Weltmodellierungsfähigkeiten von VLMs erheblich verbessert. Schließlich schlagen wir ein neuartiges Framework vor, das VLM-Weltmodelle in das Planungsframework mobiler Agenten integriert und demonstriert, dass semantische Weltmodelle mobile Agenten direkt durch eine Steigerung der Aufgaben-Erfolgsquote unterstützen können. Der Code und der Datensatz sind unter https://github.com/jacklishufan/MobileWorld verfügbar.
English
World models have shown great utility in improving the task performance of embodied agents. While prior work largely focuses on pixel-space world models, these approaches face practical limitations in GUI settings, where predicting complex visual elements in future states is often difficult. In this work, we explore an alternative formulation of world modeling for GUI agents, where state transitions are described in natural language rather than predicting raw pixels. First, we introduce MobileWorldBench, a benchmark that evaluates the ability of vision-language models (VLMs) to function as world models for mobile GUI agents. Second, we release MobileWorld, a large-scale dataset consisting of 1.4M samples, that significantly improves the world modeling capabilities of VLMs. Finally, we propose a novel framework that integrates VLM world models into the planning framework of mobile agents, demonstrating that semantic world models can directly benefit mobile agents by improving task success rates. The code and dataset is available at https://github.com/jacklishufan/MobileWorld