Generatieve Visuele Code Mobiele Wereldmodellen

Samenvatting

Grafische gebruikersinterface (GUI) wereldmodellen (WM's) voor mobiele apparaten bieden een veelbelovende weg om de prestaties van mobiele GUI-agenten te verbeteren, zowel tijdens training als inferentie. Huidige benaderingen kampen echter met een cruciaal dilemma: op tekst gebaseerde WM's offeren visuele nauwkeurigheid op, terwijl het onvermogen van visuele WM's om tekst precies weer te geven, leidde tot hun afhankelijkheid van trage, complexe pijplijnen die op tal van externe modellen steunen. Wij stellen een nieuw paradigma voor: visuele wereldmodellering via renderbare codegeneratie, waarbij een enkel Vision-Language Model (VLM) de volgende GUI-toestand voorspelt als uitvoerbare webcode die naar pixels wordt gerenderd, in plaats van pixels direct te genereren. Dit combineert de sterke punten van beide benaderingen: VLM's behouden hun linguïstische prior voor nauwkeurige tekstweergave, terwijl hun pre-training op gestructureerde webcode hoogwaardige visuele generatie mogelijk maakt. Wij introduceren gWorld (8B, 32B), de eerste open-weight visuele mobiele GUI WM's die op dit paradigma zijn gebouwd, samen met een datageneratieframework (gWorld) dat automatisch op code gebaseerde trainingsdata synthetiseert. In een uitgebreide evaluatie over 4 in-distributie- en 2 out-of-distributie benchmarks stelt gWorld een nieuwe pareto-grens vast voor nauwkeurigheid versus modelgrootte, en presteert het beter dan 8 toonaangevende open-weight modellen die tot 50,25 keer groter zijn. Verdere analyses tonen aan dat (1) het schalen van trainingsdata via gWorld zinvolle winst oplevert, (2) elke component van onze pijplijn de datakwaliteit verbetert, en (3) sterker wereldmodelleren de prestaties van downstream mobiele GUI-beleid verbetert.

English

Mobile Graphical User Interface (GUI) World Models (WMs) offer a promising path for improving mobile GUI agent performance at train- and inference-time. However, current approaches face a critical trade-off: text-based WMs sacrifice visual fidelity, while the inability of visual WMs in precise text rendering led to their reliance on slow, complex pipelines dependent on numerous external models. We propose a novel paradigm: visual world modeling via renderable code generation, where a single Vision-Language Model (VLM) predicts the next GUI state as executable web code that renders to pixels, rather than generating pixels directly. This combines the strengths of both approaches: VLMs retain their linguistic priors for precise text rendering while their pre-training on structured web code enables high-fidelity visual generation. We introduce gWorld (8B, 32B), the first open-weight visual mobile GUI WMs built on this paradigm, along with a data generation framework (gWorld) that automatically synthesizes code-based training data. In extensive evaluation across 4 in- and 2 out-of-distribution benchmarks, gWorld sets a new pareto frontier in accuracy versus model size, outperforming 8 frontier open-weight models over 50.25x larger. Further analyses show that (1) scaling training data via gWorld yields meaningful gains, (2) each component of our pipeline improves data quality, and (3) stronger world modeling improves downstream mobile GUI policy performance.

Generatieve Visuele Code Mobiele Wereldmodellen

Generative Visual Code Mobile World Models

Samenvatting

Support