Code2World: Um Modelo de Mundo GUI via Geração de Código Renderizável
Code2World: A GUI World Model via Renderable Code Generation
February 10, 2026
Autores: Yuhao Zheng, Li'an Zhong, Yi Wang, Rui Dai, Kaikui Liu, Xiangxiang Chu, Linyuan Lv, Philip Torr, Kevin Qinghong Lin
cs.AI
Resumo
Os agentes autônomos de GUI interagem com ambientes percebendo interfaces e executando ações. Como um ambiente virtual de testes (sandbox), o modelo GUI World capacita os agentes com previsão de ações, conferindo-lhes uma previsão similar à humana. No entanto, as abordagens existentes baseadas em texto e pixel lutam para alcançar simultaneamente alta fidelidade visual e controlabilidade estrutural granular. Para isso, propomos o Code2World, um codificador visuo-linguístico que simula o próximo estado visual por meio da geração de código renderizável. Especificamente, para resolver o problema da escassez de dados, construímos o AndroidCode traduzindo trajetórias de GUI em HTML de alta fidelidade e refinando o código sintetizado através de um mecanismo de revisão por feedback visual, resultando em um corpus com mais de 80 mil pares tela-ação de alta qualidade. Para adaptar os VLMs existentes à previsão de código, primeiro realizamos Ajuste Fino Supervisionado (SFT) como um início rápido para o seguimento do formato de layout, e depois aplicamos o Reforço de Aprendizagem com Consciência da Renderização (Render-Aware Reinforcement Learning), que utiliza o resultado renderizado como sinal de recompensa, impondo fidelidade semântica visual e consistência de ação. Experimentos extensivos demonstram que o Code2World-8B alcança o melhor desempenho em previsão da próxima UI, rivalizando com os competitivos GPT-5 e Gemini-3-Pro-Image. Notavelmente, o Code2World aumenta significativamente as taxas de sucesso de navegação downstream de maneira flexível, impulsionando o Gemini-2.5-Flash em +9,5% na navegação do AndroidWorld. O código está disponível em https://github.com/AMAP-ML/Code2World.
English
Autonomous GUI agents interact with environments by perceiving interfaces and executing actions. As a virtual sandbox, the GUI World model empowers agents with human-like foresight by enabling action-conditioned prediction. However, existing text- and pixel-based approaches struggle to simultaneously achieve high visual fidelity and fine-grained structural controllability. To this end, we propose Code2World, a vision-language coder that simulates the next visual state via renderable code generation. Specifically, to address the data scarcity problem, we construct AndroidCode by translating GUI trajectories into high-fidelity HTML and refining synthesized code through a visual-feedback revision mechanism, yielding a corpus of over 80K high-quality screen-action pairs. To adapt existing VLMs into code prediction, we first perform SFT as a cold start for format layout following, then further apply Render-Aware Reinforcement Learning which uses rendered outcome as the reward signal by enforcing visual semantic fidelity and action consistency. Extensive experiments demonstrate that Code2World-8B achieves the top-performing next UI prediction, rivaling the competitive GPT-5 and Gemini-3-Pro-Image. Notably, Code2World significantly enhances downstream navigation success rates in a flexible manner, boosting Gemini-2.5-Flash by +9.5% on AndroidWorld navigation. The code is available at https://github.com/AMAP-ML/Code2World.