Code2World: Een GUI-wereldmodel via renderbare codegeneratie

Samenvatting

Autonome GUI-agenten interageren met omgevingen door interfaces waar te nemen en acties uit te voeren. Als virtuele sandbox stelt het GUI World-model agenten in staat om menselijk vooruitziend vermogen te verkrijgen door middel van actie-gestuurde voorspelling. Bestaande op tekst en pixels gebaseerde methoden slagen er echter niet in om tegelijkertijd hoge visuele kwaliteit en fijnmazige structurele beheersbaarheid te bereiken. Daarom stellen wij Code2World voor, een vision-language coder die de volgende visuele toestand simuleert via renderbare code-generatie. Specifiek, om het probleem van dataschaarste aan te pakken, construeren wij AndroidCode door GUI-trajecten om te zetten in hoogwaardige HTML en de gesynthetiseerde code te verfijnen via een revisiemechanisme met visuele feedback, wat resulteert in een corpus van meer dan 80K hoogwaardige scherm-actieparen. Om bestaande VLMs aan te passen voor codevoorspelling, voeren we eerst SFT uit als een koude start voor het volgen van formaatlay-outs, en passen we vervolgens Render-Aware Reinforcement Learning toe, waarbij de gerenderde uitkomst als beloningssignaal wordt gebruikt door visuele semantische trouw en actieconsistentie af te dwingen. Uitgebreide experimenten tonen aan dat Code2World-8B de beste prestaties levert voor volgende UI-voorspelling en kan rivaliseren met de competitieve GPT-5 en Gemini-3-Pro-Image. Opmerkelijk is dat Code2World op een flexibele manier de slagingspercentages voor downstream navigatie aanzienlijk verbetert, door Gemini-2.5-Flash met +9,5% te verbeteren op AndroidWorld-navigatie. De code is beschikbaar op https://github.com/AMAP-ML/Code2World.

English

Autonomous GUI agents interact with environments by perceiving interfaces and executing actions. As a virtual sandbox, the GUI World model empowers agents with human-like foresight by enabling action-conditioned prediction. However, existing text- and pixel-based approaches struggle to simultaneously achieve high visual fidelity and fine-grained structural controllability. To this end, we propose Code2World, a vision-language coder that simulates the next visual state via renderable code generation. Specifically, to address the data scarcity problem, we construct AndroidCode by translating GUI trajectories into high-fidelity HTML and refining synthesized code through a visual-feedback revision mechanism, yielding a corpus of over 80K high-quality screen-action pairs. To adapt existing VLMs into code prediction, we first perform SFT as a cold start for format layout following, then further apply Render-Aware Reinforcement Learning which uses rendered outcome as the reward signal by enforcing visual semantic fidelity and action consistency. Extensive experiments demonstrate that Code2World-8B achieves the top-performing next UI prediction, rivaling the competitive GPT-5 and Gemini-3-Pro-Image. Notably, Code2World significantly enhances downstream navigation success rates in a flexible manner, boosting Gemini-2.5-Flash by +9.5% on AndroidWorld navigation. The code is available at https://github.com/AMAP-ML/Code2World.

Code2World: Een GUI-wereldmodel via renderbare codegeneratie

Code2World: A GUI World Model via Renderable Code Generation

Samenvatting

Support