Code2World: Um Modelo de Mundo GUI via Geração de Código Renderizável

Resumo

Os agentes autônomos de GUI interagem com ambientes percebendo interfaces e executando ações. Como um ambiente virtual de testes (sandbox), o modelo GUI World capacita os agentes com previsão de ações, conferindo-lhes uma previsão similar à humana. No entanto, as abordagens existentes baseadas em texto e pixel lutam para alcançar simultaneamente alta fidelidade visual e controlabilidade estrutural granular. Para isso, propomos o Code2World, um codificador visuo-linguístico que simula o próximo estado visual por meio da geração de código renderizável. Especificamente, para resolver o problema da escassez de dados, construímos o AndroidCode traduzindo trajetórias de GUI em HTML de alta fidelidade e refinando o código sintetizado através de um mecanismo de revisão por feedback visual, resultando em um corpus com mais de 80 mil pares tela-ação de alta qualidade. Para adaptar os VLMs existentes à previsão de código, primeiro realizamos Ajuste Fino Supervisionado (SFT) como um início rápido para o seguimento do formato de layout, e depois aplicamos o Reforço de Aprendizagem com Consciência da Renderização (Render-Aware Reinforcement Learning), que utiliza o resultado renderizado como sinal de recompensa, impondo fidelidade semântica visual e consistência de ação. Experimentos extensivos demonstram que o Code2World-8B alcança o melhor desempenho em previsão da próxima UI, rivalizando com os competitivos GPT-5 e Gemini-3-Pro-Image. Notavelmente, o Code2World aumenta significativamente as taxas de sucesso de navegação downstream de maneira flexível, impulsionando o Gemini-2.5-Flash em +9,5% na navegação do AndroidWorld. O código está disponível em https://github.com/AMAP-ML/Code2World.

English

Autonomous GUI agents interact with environments by perceiving interfaces and executing actions. As a virtual sandbox, the GUI World model empowers agents with human-like foresight by enabling action-conditioned prediction. However, existing text- and pixel-based approaches struggle to simultaneously achieve high visual fidelity and fine-grained structural controllability. To this end, we propose Code2World, a vision-language coder that simulates the next visual state via renderable code generation. Specifically, to address the data scarcity problem, we construct AndroidCode by translating GUI trajectories into high-fidelity HTML and refining synthesized code through a visual-feedback revision mechanism, yielding a corpus of over 80K high-quality screen-action pairs. To adapt existing VLMs into code prediction, we first perform SFT as a cold start for format layout following, then further apply Render-Aware Reinforcement Learning which uses rendered outcome as the reward signal by enforcing visual semantic fidelity and action consistency. Extensive experiments demonstrate that Code2World-8B achieves the top-performing next UI prediction, rivaling the competitive GPT-5 and Gemini-3-Pro-Image. Notably, Code2World significantly enhances downstream navigation success rates in a flexible manner, boosting Gemini-2.5-Flash by +9.5% on AndroidWorld navigation. The code is available at https://github.com/AMAP-ML/Code2World.

Code2World: Um Modelo de Mundo GUI via Geração de Código Renderizável

Code2World: A GUI World Model via Renderable Code Generation

Resumo

Support