UI2Code^N : Un modèle de langage visuel pour la génération interactive et évolutive d'interfaces utilisateur vers code en temps de test
UI2Code^N: A Visual Language Model for Test-Time Scalable Interactive UI-to-Code Generation
November 11, 2025
papers.authors: Zhen Yang, Wenyi Hong, Mingde Xu, Xinyue Fan, Weihan Wang, Jiele Cheng, Xiaotao Gu, Jie Tang
cs.AI
papers.abstract
La programmation d'interfaces utilisateur (UI) constitue un élément central mais extrêmement complexe du développement logiciel moderne. Les progrès récents des modèles de langage visuel (VLM) soulignent le potentiel du codage automatique d'interfaces, mais les approches actuelles se heurtent à deux limites principales : les capacités de codage multimodal restent sous-développées, et les paradigmes en tour unique exploitent peu la rétroaction visuelle itérative. Nous relevons ces défis avec un paradigme interactif d'interface-vers-code qui reflète mieux les flux de travail réels et repousse les limites des performances atteignables. Dans ce cadre, nous présentons UI2Code^N, un modèle de langage visuel entraîné via un pré-entraînement, un affinage et un apprentissage par renforcement par étapes, afin d'obtenir des améliorations fondamentales en codage multimodal. Le modèle unifie trois capacités clés : la génération d'interface à partir de code, l'édition d'interface et le perfectionnement d'interface. Nous explorons également la mise à l'échelle au moment des tests pour une génération interactive, permettant une utilisation systématique de la rétroaction multi-tours. Les expériences sur des benchmarks de conversion interface-vers-code et de polissage d'interface montrent qu'UI2Code^N établit un nouvel état de l'art parmi les modèles open-source et atteint des performances comparables aux modèles propriétaires leaders tels que Claude-4-Sonnet et GPT-5. Notre code et nos modèles sont disponibles à l'adresse https://github.com/zai-org/UI2Code_N.
English
User interface (UI) programming is a core yet highly complex part of modern software development. Recent advances in visual language models (VLMs) highlight the potential of automatic UI coding, but current approaches face two key limitations: multimodal coding capabilities remain underdeveloped, and single-turn paradigms make little use of iterative visual feedback. We address these challenges with an interactive UI-to-code paradigm that better reflects real-world workflows and raises the upper bound of achievable performance. Under this paradigm, we present UI2Code^N, a visual language model trained through staged pretraining, fine-tuning, and reinforcement learning to achieve foundational improvements in multimodal coding. The model unifies three key capabilities: UI-to-code generation, UI editing, and UI polishing. We further explore test-time scaling for interactive generation, enabling systematic use of multi-turn feedback. Experiments on UI-to-code and UI polishing benchmarks show that UI2Code^N establishes a new state of the art among open-source models and achieves performance comparable to leading closed-source models such as Claude-4-Sonnet and GPT-5. Our code and models are available at https://github.com/zai-org/UI2Code_N.