ChatPaper.aiChatPaper

MobileWorldBench: к семантическому моделированию мира для мобильных агентов

MobileWorldBench: Towards Semantic World Modeling For Mobile Agents

December 16, 2025
Авторы: Shufan Li, Konstantinos Kallidromitis, Akash Gokul, Yusuke Kato, Kazuki Kozuka, Aditya Grover
cs.AI

Аннотация

Модели мира продемонстрировали высокую эффективность в улучшении производительности воплощенных агентов при выполнении задач. В то время как предыдущие работы в основном сосредоточены на моделях мира в пиксельном пространстве, эти подходы сталкиваются с практическими ограничениями в условиях графического интерфейса, где прогнозирование сложных визуальных элементов в будущих состояниях часто затруднено. В данной работе мы исследуем альтернативную формулировку моделирования мира для агентов, работающих с графическим интерфейсом, где переходы между состояниями описываются на естественном языке, а не прогнозируются исходные пиксели. Во-первых, мы представляем MobileWorldBench — эталонный тест, который оценивает способность моделей "визуальный язык" (VLMs) функционировать в качестве моделей мира для мобильных агентов с графическим интерфейсом. Во-вторых, мы публикуем MobileWorld — масштабный набор данных, состоящий из 1,4 миллиона примеров, который значительно улучшает возможности VLMs по моделированию мира. Наконец, мы предлагаем новую структуру, которая интегрирует модели мира на основе VLMs в систему планирования мобильных агентов, демонстрируя, что семантические модели мира могут напрямую приносить пользу мобильным агентам, повышая процент успешного выполнения задач. Код и набор данных доступны по адресу https://github.com/jacklishufan/MobileWorld.
English
World models have shown great utility in improving the task performance of embodied agents. While prior work largely focuses on pixel-space world models, these approaches face practical limitations in GUI settings, where predicting complex visual elements in future states is often difficult. In this work, we explore an alternative formulation of world modeling for GUI agents, where state transitions are described in natural language rather than predicting raw pixels. First, we introduce MobileWorldBench, a benchmark that evaluates the ability of vision-language models (VLMs) to function as world models for mobile GUI agents. Second, we release MobileWorld, a large-scale dataset consisting of 1.4M samples, that significantly improves the world modeling capabilities of VLMs. Finally, we propose a novel framework that integrates VLM world models into the planning framework of mobile agents, demonstrating that semantic world models can directly benefit mobile agents by improving task success rates. The code and dataset is available at https://github.com/jacklishufan/MobileWorld
PDF21December 18, 2025