UI2Code^N: Ein visuelles Sprachmodell für testzeit-skalierbare, interaktive UI-zu-Code-Generierung
UI2Code^N: A Visual Language Model for Test-Time Scalable Interactive UI-to-Code Generation
November 11, 2025
papers.authors: Zhen Yang, Wenyi Hong, Mingde Xu, Xinyue Fan, Weihan Wang, Jiele Cheng, Xiaotao Gu, Jie Tang
cs.AI
papers.abstract
Die Programmierung von Benutzeroberflächen (UI) ist ein zentraler, aber hochkomplexer Bereich der modernen Softwareentwicklung. Jüngste Fortschritte bei visuellen Sprachmodellen (VLMs) unterstreichen das Potenzial des automatischen UI-Codings, doch aktuelle Ansätze stoßen auf zwei Hauptprobleme: Multimodale Codierfähigkeiten sind noch unzureichend entwickelt, und Single-Turn-Paradigmen nutzen iteratives visuelles Feedback kaum. Wir begegnen diesen Herausforderungen mit einem interaktiven UI-zu-Code-Paradigma, das reale Arbeitsabläufe besser abbildet und die Obergrenze der erreichbaren Leistung anhebt. Innerhalb dieses Paradigmas präsentieren wir UI2Code^N, ein visuelles Sprachmodell, das durch gestuftes Pre-Training, Fine-Tuning und bestärkendes Lernen trainiert wurde, um grundlegende Verbesserungen im multimodalen Coding zu erzielen. Das Modell vereint drei Schlüsselfähigkeiten: UI-zu-Code-Generierung, UI-Bearbeitung und UI-Optimierung. Wir erforschen zudem Test-Time-Scaling für die interaktive Generierung, was die systematische Nutzung von Multi-Turn-Feedback ermöglicht. Experimente auf UI-zu-Code- und UI-Optimierungs-Benchmarks zeigen, dass UI2Code^N einen neuen State-of-the-Art unter Open-Source-Modellen etabliert und eine mit führenden Closed-Source-Modellen wie Claude-4-Sonnet und GPT-5 vergleichbare Leistung erzielt. Unser Code und unsere Modelle sind unter https://github.com/zai-org/UI2Code_N verfügbar.
English
User interface (UI) programming is a core yet highly complex part of modern software development. Recent advances in visual language models (VLMs) highlight the potential of automatic UI coding, but current approaches face two key limitations: multimodal coding capabilities remain underdeveloped, and single-turn paradigms make little use of iterative visual feedback. We address these challenges with an interactive UI-to-code paradigm that better reflects real-world workflows and raises the upper bound of achievable performance. Under this paradigm, we present UI2Code^N, a visual language model trained through staged pretraining, fine-tuning, and reinforcement learning to achieve foundational improvements in multimodal coding. The model unifies three key capabilities: UI-to-code generation, UI editing, and UI polishing. We further explore test-time scaling for interactive generation, enabling systematic use of multi-turn feedback. Experiments on UI-to-code and UI polishing benchmarks show that UI2Code^N establishes a new state of the art among open-source models and achieves performance comparable to leading closed-source models such as Claude-4-Sonnet and GPT-5. Our code and models are available at https://github.com/zai-org/UI2Code_N.