Modelos Visuais Generativos de Código Móvel para Mundos

Resumo

Os Modelos de Mundo (WMs) de Interface Gráfica de Utilizador (GUI) Móvel oferecem um caminho promissor para melhorar o desempenho de agentes de GUI móvel durante o treino e a inferência. No entanto, as abordagens atuais enfrentam um compromisso crítico: os WMs baseados em texto sacrificam a fidelidade visual, enquanto a incapacidade dos WMs visuais na renderização precisa de texto levou à sua dependência de *pipelines* lentos e complexos, dependentes de numerosos modelos externos. Propomos um novo paradigma: a modelação visual do mundo através da geração de código renderizável, onde um único Modelo de Visão e Linguagem (VLM) prevê o próximo estado da GUI como código web executável que é renderizado em píxeis, em vez de gerar píxeis diretamente. Isto combina os pontos fortes de ambas as abordagens: os VLMs mantêm os seus *priors* linguísticos para uma renderização de texto precisa, enquanto o seu pré-treino em código web estruturado permite uma geração visual de alta fidelidade. Apresentamos o gWorld (8B, 32B), os primeiros WMs visuais de GUI móvel de peso aberto (*open-weight*) construídos sobre este paradigma, juntamente com um *framework* de geração de dados (gWorld) que sintetiza automaticamente dados de treino baseados em código. Numa avaliação extensa em 4 *benchmarks* dentro da distribuição e 2 fora da distribuição, o gWorld estabelece uma nova fronteira de Pareto em precisão versus tamanho do modelo, superando 8 modelos de peso aberto de ponta com tamanhos até 50,25x maiores. Análises adicionais mostram que (1) a escala de dados de treino através do gWorld produz ganhos significativos, (2) cada componente do nosso *pipeline* melhora a qualidade dos dados, e (3) uma modelação de mundo mais forte melhora o desempenho da política de GUI móvel a jusante.

English

Mobile Graphical User Interface (GUI) World Models (WMs) offer a promising path for improving mobile GUI agent performance at train- and inference-time. However, current approaches face a critical trade-off: text-based WMs sacrifice visual fidelity, while the inability of visual WMs in precise text rendering led to their reliance on slow, complex pipelines dependent on numerous external models. We propose a novel paradigm: visual world modeling via renderable code generation, where a single Vision-Language Model (VLM) predicts the next GUI state as executable web code that renders to pixels, rather than generating pixels directly. This combines the strengths of both approaches: VLMs retain their linguistic priors for precise text rendering while their pre-training on structured web code enables high-fidelity visual generation. We introduce gWorld (8B, 32B), the first open-weight visual mobile GUI WMs built on this paradigm, along with a data generation framework (gWorld) that automatically synthesizes code-based training data. In extensive evaluation across 4 in- and 2 out-of-distribution benchmarks, gWorld sets a new pareto frontier in accuracy versus model size, outperforming 8 frontier open-weight models over 50.25x larger. Further analyses show that (1) scaling training data via gWorld yields meaningful gains, (2) each component of our pipeline improves data quality, and (3) stronger world modeling improves downstream mobile GUI policy performance.

Modelos Visuais Generativos de Código Móvel para Mundos

Generative Visual Code Mobile World Models

Resumo

Support