Modelli Generativi di Mondi Visivi Mobili in Codice

Abstract

I modelli di mondo (World Models, WM) per interfacce grafiche (GUI) mobili offrono una prospettiva promettente per migliorare le prestazioni degli agenti GUI mobili durante l'addestramento e l'inferenza. Tuttavia, gli approcci attuali affrontano un compromesso critico: i WM basati su testo sacrificano la fedeltà visiva, mentre l'incapacità dei WM visivi di riprodurre il testo in modo preciso li ha portati a dipendere da pipeline lente e complesse che si affidano a numerosi modelli esterni. Proponiamo un nuovo paradigma: la modellazione visiva del mondo tramite generazione di codice renderizzabile, in cui un singolo modello visione-linguaggio (Vision-Language Model, VLM) predice lo stato successivo della GUI come codice web eseguibile che viene renderizzato in pixel, anziché generare i pixel direttamente. Ciò combina i punti di forza di entrambi gli approcci: i VLM conservano i loro preconcetti linguistici per una resa precisa del testo, mentre il loro pre-addestramento su codice web strutturato consente una generazione visiva ad alta fedeltà. Introduciamo gWorld (8B, 32B), i primi WM visivi per GUI mobili open-weight costruiti su questo paradigma, insieme a un framework di generazione dati (gWorld) che sintetizza automaticamente dati di addestramento basati su codice. In una valutazione estesa su 4 benchmark in-distribuzione e 2 out-of-distribution, gWorld stabilisce una nuova frontiera di Pareto in accuratezza rispetto alla dimensione del modello, superando 8 modelli open-weight all'avanguardia fino a 50,25 volte più grandi. Ulteriori analisi mostrano che (1) il ridimensionamento dei dati di addestramento tramite gWorld produce miglioramenti significativi, (2) ogni componente della nostra pipeline migliora la qualità dei dati e (3) una modellazione del mondo più robusta migliora le prestazioni delle policy per GUI mobili a valle.

English

Mobile Graphical User Interface (GUI) World Models (WMs) offer a promising path for improving mobile GUI agent performance at train- and inference-time. However, current approaches face a critical trade-off: text-based WMs sacrifice visual fidelity, while the inability of visual WMs in precise text rendering led to their reliance on slow, complex pipelines dependent on numerous external models. We propose a novel paradigm: visual world modeling via renderable code generation, where a single Vision-Language Model (VLM) predicts the next GUI state as executable web code that renders to pixels, rather than generating pixels directly. This combines the strengths of both approaches: VLMs retain their linguistic priors for precise text rendering while their pre-training on structured web code enables high-fidelity visual generation. We introduce gWorld (8B, 32B), the first open-weight visual mobile GUI WMs built on this paradigm, along with a data generation framework (gWorld) that automatically synthesizes code-based training data. In extensive evaluation across 4 in- and 2 out-of-distribution benchmarks, gWorld sets a new pareto frontier in accuracy versus model size, outperforming 8 frontier open-weight models over 50.25x larger. Further analyses show that (1) scaling training data via gWorld yields meaningful gains, (2) each component of our pipeline improves data quality, and (3) stronger world modeling improves downstream mobile GUI policy performance.

Modelli Generativi di Mondi Visivi Mobili in Codice

Generative Visual Code Mobile World Models

Abstract

Support