ChatPaper.aiChatPaper

MobileWorldBench: Op Weg Naar Semantische Wereldmodellering Voor Mobiele Agenten

MobileWorldBench: Towards Semantic World Modeling For Mobile Agents

December 16, 2025
Auteurs: Shufan Li, Konstantinos Kallidromitis, Akash Gokul, Yusuke Kato, Kazuki Kozuka, Aditya Grover
cs.AI

Samenvatting

Wereldmodellen hebben hun grote nut bewezen bij het verbeteren van de taakprestaties van belichaamde agents. Terwijl eerder werk zich vooral richtte op wereldmodellen in de pixelruimte, kampen deze benaderingen met praktische beperkingen in GUI-omgevingen, waar het voorspellen van complexe visuele elementen in toekomstige toestanden vaak moeilijk is. In dit werk verkennen we een alternatieve formulering van wereldmodellering voor GUI-agents, waarbij toestandsovergangen worden beschreven in natuurlijke taal in plaats van door het voorspellen van ruwe pixels. Ten eerste introduceren we MobileWorldBench, een benchmark die het vermogen evalueert van vision-language modellen (VLM's) om te functioneren als wereldmodellen voor mobiele GUI-agents. Ten tweede presenteren we MobileWorld, een grootschalige dataset bestaande uit 1,4 miljoen samples, die de wereldmodelleringscapaciteiten van VLM's aanzienlijk verbetert. Tot slot stellen we een nieuw raamwerk voor dat VLM-wereldmodellen integreert in het planningsraamwerk van mobiele agents, waarbij wordt aangetoond dat semantische wereldmodellen mobiele agents direct kunnen verbeteren door de taaksuccespercentages te verhogen. De code en dataset zijn beschikbaar op https://github.com/jacklishufan/MobileWorld.
English
World models have shown great utility in improving the task performance of embodied agents. While prior work largely focuses on pixel-space world models, these approaches face practical limitations in GUI settings, where predicting complex visual elements in future states is often difficult. In this work, we explore an alternative formulation of world modeling for GUI agents, where state transitions are described in natural language rather than predicting raw pixels. First, we introduce MobileWorldBench, a benchmark that evaluates the ability of vision-language models (VLMs) to function as world models for mobile GUI agents. Second, we release MobileWorld, a large-scale dataset consisting of 1.4M samples, that significantly improves the world modeling capabilities of VLMs. Finally, we propose a novel framework that integrates VLM world models into the planning framework of mobile agents, demonstrating that semantic world models can directly benefit mobile agents by improving task success rates. The code and dataset is available at https://github.com/jacklishufan/MobileWorld
PDF21December 18, 2025