Code2World: Un Modello Mondiale GUI tramite Generazione di Codice Renderizzabile

Abstract

Gli agenti autonomi per interfacce grafiche interagiscono con gli ambienti percependo le interfacce ed eseguendo azioni. Come sandbox virtuale, il modello GUI World fornisce agli agenti una capacità di previsione simile a quella umana abilitando predizioni condizionate all'azione. Tuttavia, gli approcci esistenti basati su testo e pixel faticano a raggiungere simultaneamente alta fedeltà visiva e controllabilità strutturale granulare. A tal fine, proponiamo Code2World, un codificatore visione-linguaggio che simula il successivo stato visivo tramite generazione di codice renderizzabile. Nello specifico, per affrontare il problema della scarsità di dati, costruiamo AndroidCode traducendo le traiettorie GUI in HTML ad alta fedeltà e affinando il codice sintetizzato attraverso un meccanismo di revisione con feedback visivo, producendo un corpus di oltre 80.000 coppie schermo-azione di alta qualità. Per adattare i VLM esistenti alla predizione di codice, eseguiamo prima un SFT come avvio a freddo per il rispetto del layout formale, per poi applicare un Reinforcement Learning Render-Aware che utilizza il risultato renderizzato come segnale di ricompina, imponendo fedeltà semantica visiva e consistenza dell'azione. Esperimenti estensivi dimostrano che Code2World-8B raggiunge le migliori prestazioni nella predizione della UI successiva, rivaleggiando con i competitivi GPT-5 e Gemini-3-Pro-Image. Notevolmente, Code2World migliora significativamente i tassi di successo nella navigazione a valle in modo flessibile, incrementando Gemini-2.5-Flash del +9.5% sulla navigazione AndroidWorld. Il codice è disponibile all'indirizzo https://github.com/AMAP-ML/Code2World.

English

Autonomous GUI agents interact with environments by perceiving interfaces and executing actions. As a virtual sandbox, the GUI World model empowers agents with human-like foresight by enabling action-conditioned prediction. However, existing text- and pixel-based approaches struggle to simultaneously achieve high visual fidelity and fine-grained structural controllability. To this end, we propose Code2World, a vision-language coder that simulates the next visual state via renderable code generation. Specifically, to address the data scarcity problem, we construct AndroidCode by translating GUI trajectories into high-fidelity HTML and refining synthesized code through a visual-feedback revision mechanism, yielding a corpus of over 80K high-quality screen-action pairs. To adapt existing VLMs into code prediction, we first perform SFT as a cold start for format layout following, then further apply Render-Aware Reinforcement Learning which uses rendered outcome as the reward signal by enforcing visual semantic fidelity and action consistency. Extensive experiments demonstrate that Code2World-8B achieves the top-performing next UI prediction, rivaling the competitive GPT-5 and Gemini-3-Pro-Image. Notably, Code2World significantly enhances downstream navigation success rates in a flexible manner, boosting Gemini-2.5-Flash by +9.5% on AndroidWorld navigation. The code is available at https://github.com/AMAP-ML/Code2World.

Code2World: Un Modello Mondiale GUI tramite Generazione di Codice Renderizzabile

Code2World: A GUI World Model via Renderable Code Generation

Abstract

Support