UI2Code^N: Een Visueel Taalmodel voor Testtijd Schaalbare Interactieve UI-naar-Code Generatie
UI2Code^N: A Visual Language Model for Test-Time Scalable Interactive UI-to-Code Generation
November 11, 2025
Auteurs: Zhen Yang, Wenyi Hong, Mingde Xu, Xinyue Fan, Weihan Wang, Jiele Cheng, Xiaotao Gu, Jie Tang
cs.AI
Samenvatting
Gebruikersinterface (UI)-programmering is een kernonderdeel maar ook zeer complex aspect van moderne software-ontwikkeling. Recente vooruitgang in visuele taalmodelen (VTM'en) benadrukt het potentieel van automatische UI-codering, maar huidige methoden kampen met twee belangrijke beperkingen: multimodale codeercapaciteiten zijn nog onderontwikkeld, en enkelvoudige interactieparadigma's maken weinig gebruik van iteratieve visuele feedback. Wij pakken deze uitdagingen aan met een interactief UI-naar-code-paradigma dat realistische workflows beter weerspiegelt en de bovengrens van haalbare prestaties verhoogt. Binnen dit paradigma presenteren wij UI2Code^N, een visueel taalmodel getraind door gefaseerde voorpretraining, finetuning en reinforcement learning om fundamentele verbeteringen in multimodale codering te bereiken. Het model verenigt drie cruciale capaciteiten: UI-naar-code-generatie, UI-bewerking en UI-afwerking. Wij onderzoeken verder testtijd-schaling voor interactieve generatie, waardoor systematisch gebruik van meervoudige feedback mogelijk wordt. Experimenten op UI-naar-code- en UI-afwerkingsbenchmarks tonen aan dat UI2Code^N een nieuwe state-of-the-art vestigt onder open-sourcemodellen en prestaties bereikt die vergelijkbaar zijn met toonaangevende closed-sourcemodellen zoals Claude-4-Sonnet en GPT-5. Onze code en modellen zijn beschikbaar op https://github.com/zai-org/UI2Code_N.
English
User interface (UI) programming is a core yet highly complex part of modern software development. Recent advances in visual language models (VLMs) highlight the potential of automatic UI coding, but current approaches face two key limitations: multimodal coding capabilities remain underdeveloped, and single-turn paradigms make little use of iterative visual feedback. We address these challenges with an interactive UI-to-code paradigm that better reflects real-world workflows and raises the upper bound of achievable performance. Under this paradigm, we present UI2Code^N, a visual language model trained through staged pretraining, fine-tuning, and reinforcement learning to achieve foundational improvements in multimodal coding. The model unifies three key capabilities: UI-to-code generation, UI editing, and UI polishing. We further explore test-time scaling for interactive generation, enabling systematic use of multi-turn feedback. Experiments on UI-to-code and UI polishing benchmarks show that UI2Code^N establishes a new state of the art among open-source models and achieves performance comparable to leading closed-source models such as Claude-4-Sonnet and GPT-5. Our code and models are available at https://github.com/zai-org/UI2Code_N.