Modèles de monde mobile par code visuel génératif

Résumé

Les modèles de monde (WMs) d'interface graphique mobile (GUI) offrent une voie prometteuse pour améliorer les performances des agents GUI mobiles lors de l'entraînement et de l'inférence. Cependant, les approches actuelles sont confrontées à un compromis critique : les WMs textuels sacrifient la fidélité visuelle, tandis que l'incapacité des WMs visuels à restituer précisément le texte les contraint à recourir à des pipelines lents et complexes dépendant de nombreux modèles externes. Nous proposons un nouveau paradigme : la modélisation visuelle du monde par génération de code rendu, où un seul modèle vision-langage (VLM) prédit l'état GUI suivant sous forme de code web exécutable qui s'affiche en pixels, plutôt que de générer directement les pixels. Cela combine les forces des deux approches : les VLM conservent leurs connaissances linguistiques pour un rendu textuel précis, tandis que leur pré-entraînement sur du code web structuré permet une génération visuelle haute fidélité. Nous présentons gWorld (8B, 32B), les premiers WMs visuels ouverts pour GUI mobiles construits sur ce paradigme, accompagnés d'un cadre de génération de données (gWorld) qui synthétise automatiquement des données d'entraînement basées sur du code. Lors d'une évaluation approfondie sur 4 benchmarks en distribution et 2 hors distribution, gWorld établit une nouvelle frontière de Pareto en précision versus taille de modèle, surpassant 8 modèles ouverts de pointe jusqu'à 50,25 fois plus grands. Des analyses complémentaires montrent que (1) l'augmentation des données d'entraînement via gWorld procure des gains significatifs, (2) chaque composant de notre pipeline améliore la qualité des données, et (3) une modélisation du monde plus robuste améliore les performances des politiques d'action sur GUI mobiles en aval.

English

Mobile Graphical User Interface (GUI) World Models (WMs) offer a promising path for improving mobile GUI agent performance at train- and inference-time. However, current approaches face a critical trade-off: text-based WMs sacrifice visual fidelity, while the inability of visual WMs in precise text rendering led to their reliance on slow, complex pipelines dependent on numerous external models. We propose a novel paradigm: visual world modeling via renderable code generation, where a single Vision-Language Model (VLM) predicts the next GUI state as executable web code that renders to pixels, rather than generating pixels directly. This combines the strengths of both approaches: VLMs retain their linguistic priors for precise text rendering while their pre-training on structured web code enables high-fidelity visual generation. We introduce gWorld (8B, 32B), the first open-weight visual mobile GUI WMs built on this paradigm, along with a data generation framework (gWorld) that automatically synthesizes code-based training data. In extensive evaluation across 4 in- and 2 out-of-distribution benchmarks, gWorld sets a new pareto frontier in accuracy versus model size, outperforming 8 frontier open-weight models over 50.25x larger. Further analyses show that (1) scaling training data via gWorld yields meaningful gains, (2) each component of our pipeline improves data quality, and (3) stronger world modeling improves downstream mobile GUI policy performance.

Modèles de monde mobile par code visuel génératif

Generative Visual Code Mobile World Models

Résumé

Support