MobileWorldBench: Rumo à Modelagem Semântica do Mundo para Agentes Móveis

Resumo

Os modelos de mundo têm demonstrado grande utilidade na melhoria do desempenho de tarefas de agentes corporificados. Embora trabalhos anteriores se concentrem principalmente em modelos de mundo no espaço de pixels, essas abordagens enfrentam limitações práticas em ambientes de interface gráfica do utilizador (GUI), onde a previsão de elementos visuais complexos em estados futuros é frequentemente difícil. Neste trabalho, exploramos uma formulação alternativa de modelagem de mundo para agentes de GUI, em que as transições de estado são descritas em linguagem natural em vez de prever pixels brutos. Primeiro, introduzimos o MobileWorldBench, um *benchmark* que avalia a capacidade dos modelos de visão e linguagem (VLMs) para funcionarem como modelos de mundo para agentes móveis de GUI. Segundo, disponibilizamos o MobileWorld, um conjunto de dados em larga escala composto por 1,4 milhão de amostras, que melhora significativamente as capacidades de modelagem de mundo dos VLMs. Finalmente, propomos uma nova estrutura que integra modelos de mundo baseados em VLMs no *framework* de planeamento de agentes móveis, demonstrando que os modelos de mundo semânticos podem beneficiar diretamente os agentes móveis ao melhorar as taxas de sucesso de tarefas. O código e o conjunto de dados estão disponíveis em https://github.com/jacklishufan/MobileWorld.

English

World models have shown great utility in improving the task performance of embodied agents. While prior work largely focuses on pixel-space world models, these approaches face practical limitations in GUI settings, where predicting complex visual elements in future states is often difficult. In this work, we explore an alternative formulation of world modeling for GUI agents, where state transitions are described in natural language rather than predicting raw pixels. First, we introduce MobileWorldBench, a benchmark that evaluates the ability of vision-language models (VLMs) to function as world models for mobile GUI agents. Second, we release MobileWorld, a large-scale dataset consisting of 1.4M samples, that significantly improves the world modeling capabilities of VLMs. Finally, we propose a novel framework that integrates VLM world models into the planning framework of mobile agents, demonstrating that semantic world models can directly benefit mobile agents by improving task success rates. The code and dataset is available at https://github.com/jacklishufan/MobileWorld

MobileWorldBench: Rumo à Modelagem Semântica do Mundo para Agentes Móveis

MobileWorldBench: Towards Semantic World Modeling For Mobile Agents

Resumo

Support