ChatPaper.aiChatPaper

MobileWorldBench : Vers une modélisation sémantique du monde pour les agents mobiles

MobileWorldBench: Towards Semantic World Modeling For Mobile Agents

December 16, 2025
papers.authors: Shufan Li, Konstantinos Kallidromitis, Akash Gokul, Yusuke Kato, Kazuki Kozuka, Aditya Grover
cs.AI

papers.abstract

Les modèles du monde ont démontré une grande utilité pour améliorer les performances des agents incarnés dans l'exécution de tâches. Alors que les travaux antérieurs se concentrent largement sur les modèles du monde dans l'espace des pixels, ces approches rencontrent des limitations pratiques dans les environnements d'interface graphique (GUI), où la prédiction d'éléments visuels complexes dans les états futurs est souvent difficile. Dans ce travail, nous explorons une formulation alternative de la modélisation du monde pour les agents GUI, où les transitions d'état sont décrites en langage naturel plutôt que par la prédiction de pixels bruts. Premièrement, nous introduisons MobileWorldBench, un benchmark qui évalue la capacité des modèles vision-langage (VLM) à fonctionner comme modèles du monde pour les agents mobiles GUI. Deuxièmement, nous publions MobileWorld, un jeu de données à grande échelle comprenant 1,4 million d'échantillons, qui améliore significativement les capacités de modélisation du monde des VLM. Enfin, nous proposons un nouveau cadre qui intègre les modèles du monde VLM dans le cadre de planification des agents mobiles, démontrant que les modèles du monde sémantiques peuvent directement bénéficier aux agents mobiles en améliorant les taux de réussite des tâches. Le code et le jeu de données sont disponibles à l'adresse https://github.com/jacklishufan/MobileWorld.
English
World models have shown great utility in improving the task performance of embodied agents. While prior work largely focuses on pixel-space world models, these approaches face practical limitations in GUI settings, where predicting complex visual elements in future states is often difficult. In this work, we explore an alternative formulation of world modeling for GUI agents, where state transitions are described in natural language rather than predicting raw pixels. First, we introduce MobileWorldBench, a benchmark that evaluates the ability of vision-language models (VLMs) to function as world models for mobile GUI agents. Second, we release MobileWorld, a large-scale dataset consisting of 1.4M samples, that significantly improves the world modeling capabilities of VLMs. Finally, we propose a novel framework that integrates VLM world models into the planning framework of mobile agents, demonstrating that semantic world models can directly benefit mobile agents by improving task success rates. The code and dataset is available at https://github.com/jacklishufan/MobileWorld
PDF21December 18, 2025