ChatPaper.aiChatPaper

MobileWorldBench: Hacia el Modelado Semántico del Mundo para Agentes Móviles

MobileWorldBench: Towards Semantic World Modeling For Mobile Agents

December 16, 2025
Autores: Shufan Li, Konstantinos Kallidromitis, Akash Gokul, Yusuke Kato, Kazuki Kozuka, Aditya Grover
cs.AI

Resumen

Los modelos del mundo han demostrado una gran utilidad para mejorar el rendimiento de agentes corporizados en tareas específicas. Mientras que trabajos previos se centran principalmente en modelos del mundo en espacio de píxeles, estos enfoques enfrentan limitaciones prácticas en entornos de interfaz gráfica de usuario (GUI), donde predecir elementos visuales complejos en estados futuros suele ser difícil. En este trabajo, exploramos una formulación alternativa de modelado del mundo para agentes de GUI, donde las transiciones de estado se describen en lenguaje natural en lugar de predecir píxeles en bruto. Primero, presentamos MobileWorldBench, un punto de referencia que evalúa la capacidad de los modelos de visión y lenguaje (VLM) para funcionar como modelos del mundo para agentes móviles de GUI. En segundo lugar, publicamos MobileWorld, un conjunto de datos a gran escala que consta de 1,4 millones de muestras y que mejora significativamente las capacidades de modelado del mundo de los VLM. Finalmente, proponemos un marco novedoso que integra modelos del mundo basados en VLM en el marco de planificación de agentes móviles, demostrando que los modelos del mundo semánticos pueden beneficiar directamente a los agentes móviles al mejorar las tasas de éxito de las tareas. El código y el conjunto de datos están disponibles en https://github.com/jacklishufan/MobileWorld.
English
World models have shown great utility in improving the task performance of embodied agents. While prior work largely focuses on pixel-space world models, these approaches face practical limitations in GUI settings, where predicting complex visual elements in future states is often difficult. In this work, we explore an alternative formulation of world modeling for GUI agents, where state transitions are described in natural language rather than predicting raw pixels. First, we introduce MobileWorldBench, a benchmark that evaluates the ability of vision-language models (VLMs) to function as world models for mobile GUI agents. Second, we release MobileWorld, a large-scale dataset consisting of 1.4M samples, that significantly improves the world modeling capabilities of VLMs. Finally, we propose a novel framework that integrates VLM world models into the planning framework of mobile agents, demonstrating that semantic world models can directly benefit mobile agents by improving task success rates. The code and dataset is available at https://github.com/jacklishufan/MobileWorld
PDF21December 18, 2025