Code2World: Un modelo de mundo GUI mediante generación de código renderizable

Resumen

Los agentes autónomos de interfaz gráfica interactúan con entornos mediante la percepción de interfaces y la ejecución de acciones. Como entorno virtual de pruebas, el modelo GUI World dota a los agentes de una capacidad de previsión similar a la humana mediante predicciones condicionadas por acciones. Sin embargo, los enfoques existentes basados en texto y píxeles presentan dificultades para lograr simultáneamente alta fidelidad visual y controlabilidad estructural granular. Para abordar este problema, proponemos Code2World, un codificador visión-lenguaje que simula el siguiente estado visual mediante la generación de código renderizable. Específicamente, para resolver el problema de escasez de datos, construimos AndroidCode traduciendo trayectorias de GUI a HTML de alta fidelidad y refinando el código sintetizado mediante un mecanismo de revisión con retroalimentación visual, obteniendo un corpus de más de 80K pares pantalla-acción de alta calidad. Para adaptar los modelos de visión-lenguaje existentes a la predicción de código, primero realizamos Fine-Tuning Supervisado (SFT) como inicio en frío para el seguimiento de formato de diseño, luego aplicamos Refuerzo de Aprendizaje con Conciencia de Renderizado (RARL), que utiliza el resultado renderizado como señal de recompensa mediante la imposición de fidelidad semántica visual y consistencia de acciones. Experimentos exhaustivos demuestran que Code2World-8B logra el mejor rendimiento en predicción de siguiente interfaz de usuario, rivalizando con los competitivos GPT-5 y Gemini-3-Pro-Image. Notablemente, Code2World mejora significativamente las tasas de éxito en navegación descendente de manera flexible, aumentando Gemini-2.5-Flash en +9.5% en navegación AndroidWorld. El código está disponible en https://github.com/AMAP-ML/Code2World.

English

Autonomous GUI agents interact with environments by perceiving interfaces and executing actions. As a virtual sandbox, the GUI World model empowers agents with human-like foresight by enabling action-conditioned prediction. However, existing text- and pixel-based approaches struggle to simultaneously achieve high visual fidelity and fine-grained structural controllability. To this end, we propose Code2World, a vision-language coder that simulates the next visual state via renderable code generation. Specifically, to address the data scarcity problem, we construct AndroidCode by translating GUI trajectories into high-fidelity HTML and refining synthesized code through a visual-feedback revision mechanism, yielding a corpus of over 80K high-quality screen-action pairs. To adapt existing VLMs into code prediction, we first perform SFT as a cold start for format layout following, then further apply Render-Aware Reinforcement Learning which uses rendered outcome as the reward signal by enforcing visual semantic fidelity and action consistency. Extensive experiments demonstrate that Code2World-8B achieves the top-performing next UI prediction, rivaling the competitive GPT-5 and Gemini-3-Pro-Image. Notably, Code2World significantly enhances downstream navigation success rates in a flexible manner, boosting Gemini-2.5-Flash by +9.5% on AndroidWorld navigation. The code is available at https://github.com/AMAP-ML/Code2World.

Code2World: Un modelo de mundo GUI mediante generación de código renderizable

Code2World: A GUI World Model via Renderable Code Generation

Resumen

Support