Generative Visuelle Code Mobile Weltmodelle

Zusammenfassung

Mobile Graphical User Interface (GUI) World Models (WMs) bieten einen vielversprechenden Ansatz zur Verbesserung der Leistung mobiler GUI-Agenten während des Trainings und Inferenz. Allerdings stehen aktuelle Ansätze vor einem kritischen Zielkonflikt: textbasierte WMs opfern visuelle Genauigkeit, während die Unfähigkeit visueller WMs zur präzisen Textdarstellung zu ihrer Abhängigkeit von langsamen, komplexen Pipelines mit zahlreichen externen Modellen führte. Wir schlagen ein neuartiges Paradigma vor: visuelle Weltmodellierung durch renderbare Codegenerierung, bei der ein einziges Vision-Language Model (VLM) den nächsten GUI-Zustand als ausführbaren Webcode vorhersagt, der in Pixel gerendert wird, anstatt Pixel direkt zu generieren. Dies kombiniert die Stärken beider Ansätze: VLMs behalten ihre linguistischen Priors für präzise Textdarstellung, während ihr Vortraining an strukturiertem Webcode hochwertige visuelle Generierung ermöglicht. Wir stellen gWorld (8B, 32B) vor, die ersten Open-Weight visuellen mobilen GUI-WMs, die auf diesem Paradigma basieren, zusammen mit einem Datengenerierungsframework (gWorld), das automatisch codebasierte Trainingsdaten synthetisiert. In umfangreichen Evaluationen über 4 In-Distribution- und 2 Out-of-Distribution-Benchmarks setzt gWorld eine neue Pareto-Grenze in Bezug auf Genauigkeit versus Modellgröße und übertrifft 8 führende Open-Weight-Modelle, die bis zu 50,25-mal größer sind. Weitere Analysen zeigen, dass (1) Skalierung der Trainingsdaten durch gWorld signifikante Verbesserungen bringt, (2) jede Komponente unserer Pipeline die Datenqualität steigert und (3) stärkere Weltmodellierung die Leistung nachgelagerter mobiler GUI-Policies verbessert.

English

Mobile Graphical User Interface (GUI) World Models (WMs) offer a promising path for improving mobile GUI agent performance at train- and inference-time. However, current approaches face a critical trade-off: text-based WMs sacrifice visual fidelity, while the inability of visual WMs in precise text rendering led to their reliance on slow, complex pipelines dependent on numerous external models. We propose a novel paradigm: visual world modeling via renderable code generation, where a single Vision-Language Model (VLM) predicts the next GUI state as executable web code that renders to pixels, rather than generating pixels directly. This combines the strengths of both approaches: VLMs retain their linguistic priors for precise text rendering while their pre-training on structured web code enables high-fidelity visual generation. We introduce gWorld (8B, 32B), the first open-weight visual mobile GUI WMs built on this paradigm, along with a data generation framework (gWorld) that automatically synthesizes code-based training data. In extensive evaluation across 4 in- and 2 out-of-distribution benchmarks, gWorld sets a new pareto frontier in accuracy versus model size, outperforming 8 frontier open-weight models over 50.25x larger. Further analyses show that (1) scaling training data via gWorld yields meaningful gains, (2) each component of our pipeline improves data quality, and (3) stronger world modeling improves downstream mobile GUI policy performance.

Generative Visuelle Code Mobile Weltmodelle

Generative Visual Code Mobile World Models

Zusammenfassung

Support