ChatPaper.aiChatPaper

UI2Code^N: Un modello linguistico visivo per la generazione interattiva e scalabile da interfaccia utente a codice in fase di test

UI2Code^N: A Visual Language Model for Test-Time Scalable Interactive UI-to-Code Generation

November 11, 2025
Autori: Zhen Yang, Wenyi Hong, Mingde Xu, Xinyue Fan, Weihan Wang, Jiele Cheng, Xiaotao Gu, Jie Tang
cs.AI

Abstract

La programmazione dell'interfaccia utente (UI) è un aspetto fondamentale ma estremamente complesso dello sviluppo software moderno. I recenti progressi nei modelli linguistici visivi (VLM) evidenziano il potenziale della codifica automatica delle UI, ma gli approcci attuali presentano due limitazioni principali: le capacità di codifica multimodale rimangono sottosviluppate e i paradigmi a turno singolo fanno scarso uso del feedback visivo iterativo. Affrontiamo queste sfide con un paradigma interattivo da UI a codice che riflette meglio i flussi di lavoro reali e innalza il limite superiore delle prestazioni ottenibili. In questo paradigma, presentiamo UI2Code^N, un modello linguistico visivo addestrato attraverso pre-addestramento, fine-tuning e apprendimento per rinforzo in stadi, per ottenere miglioramenti fondamentali nella codifica multimodale. Il modello unifica tre capacità chiave: generazione da UI a codice, modifica dell'UI e rifinitura dell'UI. Esploriamo inoltre lo scaling al tempo di test per la generazione interattiva, consentendo un uso sistematico del feedback a più turni. Esperimenti sui benchmark di generazione da UI a codice e di rifinitura dell'UI mostrano che UI2Code^N stabilisce un nuovo stato dell'arte tra i modelli open-source e raggiunge prestazioni paragonabili a modelli closed-source leader come Claude-4-Sonnet e GPT-5. Il nostro codice e i nostri modelli sono disponibili su https://github.com/zai-org/UI2Code_N.
English
User interface (UI) programming is a core yet highly complex part of modern software development. Recent advances in visual language models (VLMs) highlight the potential of automatic UI coding, but current approaches face two key limitations: multimodal coding capabilities remain underdeveloped, and single-turn paradigms make little use of iterative visual feedback. We address these challenges with an interactive UI-to-code paradigm that better reflects real-world workflows and raises the upper bound of achievable performance. Under this paradigm, we present UI2Code^N, a visual language model trained through staged pretraining, fine-tuning, and reinforcement learning to achieve foundational improvements in multimodal coding. The model unifies three key capabilities: UI-to-code generation, UI editing, and UI polishing. We further explore test-time scaling for interactive generation, enabling systematic use of multi-turn feedback. Experiments on UI-to-code and UI polishing benchmarks show that UI2Code^N establishes a new state of the art among open-source models and achieves performance comparable to leading closed-source models such as Claude-4-Sonnet and GPT-5. Our code and models are available at https://github.com/zai-org/UI2Code_N.
PDF304December 1, 2025