Modelos Visuales Generativos de Código Móvil para Mundos

Resumen

Los Modelos de Mundo (WM) de Interfaz Gráfica de Usuario (GUI) Móvil ofrecen un camino prometedor para mejorar el rendimiento de los agentes de GUI móviles tanto en el entrenamiento como en la inferencia. Sin embargo, los enfoques actuales enfrentan una disyuntiva crítica: los WM basados en texto sacrifican la fidelidad visual, mientras que la incapacidad de los WM visuales para renderizar texto con precisión los lleva a depender de pipelines lentos y complejos que utilizan numerosos modelos externos. Proponemos un nuevo paradigma: el modelado visual del mundo mediante la generación de código renderizable, donde un único Modelo de Visión y Lenguaje (VLM) predice el siguiente estado de la GUI como código web ejecutable que se renderiza en píxeles, en lugar de generar píxeles directamente. Esto combina las fortalezas de ambos enfoques: los VLM retienen sus conocimientos lingüísticos para una renderización de texto precisa, mientras que su pre-entrenamiento en código web estructurado permite una generación visual de alta fidelidad. Presentamos gWorld (8B, 32B), los primeros WM visuales de GUI móvil de peso abierto basados en este paradigma, junto con un marco de generación de datos (gWorld) que sintetiza automáticamente datos de entrenamiento basados en código. En una evaluación exhaustiva en 4 benchmarks dentro de la distribución y 2 fuera de la distribución, gWorld establece una nueva frontera de Pareto en precisión versus tamaño del modelo, superando a 8 modelos de peso abierto de vanguardia que son más de 50.25 veces más grandes. Análisis adicionales muestran que (1) escalar los datos de entrenamiento mediante gWorld produce mejoras significativas, (2) cada componente de nuestra pipeline mejora la calidad de los datos, y (3) un modelado del mundo más fuerte mejora el rendimiento de las políticas de GUI móvil en tareas posteriores.

English

Mobile Graphical User Interface (GUI) World Models (WMs) offer a promising path for improving mobile GUI agent performance at train- and inference-time. However, current approaches face a critical trade-off: text-based WMs sacrifice visual fidelity, while the inability of visual WMs in precise text rendering led to their reliance on slow, complex pipelines dependent on numerous external models. We propose a novel paradigm: visual world modeling via renderable code generation, where a single Vision-Language Model (VLM) predicts the next GUI state as executable web code that renders to pixels, rather than generating pixels directly. This combines the strengths of both approaches: VLMs retain their linguistic priors for precise text rendering while their pre-training on structured web code enables high-fidelity visual generation. We introduce gWorld (8B, 32B), the first open-weight visual mobile GUI WMs built on this paradigm, along with a data generation framework (gWorld) that automatically synthesizes code-based training data. In extensive evaluation across 4 in- and 2 out-of-distribution benchmarks, gWorld sets a new pareto frontier in accuracy versus model size, outperforming 8 frontier open-weight models over 50.25x larger. Further analyses show that (1) scaling training data via gWorld yields meaningful gains, (2) each component of our pipeline improves data quality, and (3) stronger world modeling improves downstream mobile GUI policy performance.