Code2World : Un modèle de monde graphique via la génération de code rendu

papers.abstract

Les agents autonomes d’interface graphique interagissent avec leur environnement en percevant les interfaces et en exécutant des actions. En tant que bac à sable virtuel, le modèle GUI World dote les agents d’une capacité de prévision semblable à celle des humains en permettant des prédictions conditionnées par l’action. Cependant, les approches existantes basées sur le texte et les pixels peinent à concilier une fidélité visuelle élevée et une contrôlabilité structurelle fine. Pour y remédier, nous proposons Code2World, un codeur vision-langage qui simule l’état visuel suivant via la génération de code rendu. Concrètement, pour pallier le manque de données, nous construisons AndroidCode en traduisant des trajectoires d’interface graphique en HTML haute fidélité et en affinant le code synthétisé grâce à un mécanisme de révision par retour visuel, produisant ainsi un corpus de plus de 80 000 paires écran-action de haute qualité. Pour adapter les modèles vision-langage existants à la prédiction de code, nous effectuons d’abord un apprentissage par fine-tuning supervisé comme amorçage pour respecter la mise en forme, puis nous appliquons un apprentissage par renforcement sensible au rendu, qui utilise le résultat visuel rendu comme signal de récompense en imposant une fidélité sémantique visuelle et une cohérence des actions. Des expériences approfondies montrent que Code2World-8B obtient les meilleures performances en prédiction d’interface utilisateur suivante, rivalisant avec des modèles concurrents tels que GPT-5 et Gemini-3-Pro-Image. Particulièrement, Code2World améliore significativement les taux de réussite de navigation en aval de manière flexible, augmentant Gemini-2.5-Flash de +9,5 % sur la navigation AndroidWorld. Le code est disponible à l’adresse https://github.com/AMAP-ML/Code2World.

English

Autonomous GUI agents interact with environments by perceiving interfaces and executing actions. As a virtual sandbox, the GUI World model empowers agents with human-like foresight by enabling action-conditioned prediction. However, existing text- and pixel-based approaches struggle to simultaneously achieve high visual fidelity and fine-grained structural controllability. To this end, we propose Code2World, a vision-language coder that simulates the next visual state via renderable code generation. Specifically, to address the data scarcity problem, we construct AndroidCode by translating GUI trajectories into high-fidelity HTML and refining synthesized code through a visual-feedback revision mechanism, yielding a corpus of over 80K high-quality screen-action pairs. To adapt existing VLMs into code prediction, we first perform SFT as a cold start for format layout following, then further apply Render-Aware Reinforcement Learning which uses rendered outcome as the reward signal by enforcing visual semantic fidelity and action consistency. Extensive experiments demonstrate that Code2World-8B achieves the top-performing next UI prediction, rivaling the competitive GPT-5 and Gemini-3-Pro-Image. Notably, Code2World significantly enhances downstream navigation success rates in a flexible manner, boosting Gemini-2.5-Flash by +9.5% on AndroidWorld navigation. The code is available at https://github.com/AMAP-ML/Code2World.

Code2World : Un modèle de monde graphique via la génération de code rendu

Code2World: A GUI World Model via Renderable Code Generation

papers.abstract

Support