UI2Code^N: Ein visuelles Sprachmodell für testzeit-skalierbare, interaktive UI-zu-Code-Generierung

papers.abstract

Die Programmierung von Benutzeroberflächen (UI) ist ein zentraler, aber hochkomplexer Bereich der modernen Softwareentwicklung. Jüngste Fortschritte bei visuellen Sprachmodellen (VLMs) unterstreichen das Potenzial des automatischen UI-Codings, doch aktuelle Ansätze stoßen auf zwei Hauptprobleme: Multimodale Codierfähigkeiten sind noch unzureichend entwickelt, und Single-Turn-Paradigmen nutzen iteratives visuelles Feedback kaum. Wir begegnen diesen Herausforderungen mit einem interaktiven UI-zu-Code-Paradigma, das reale Arbeitsabläufe besser abbildet und die Obergrenze der erreichbaren Leistung anhebt. Innerhalb dieses Paradigmas präsentieren wir UI2Code^N, ein visuelles Sprachmodell, das durch gestuftes Pre-Training, Fine-Tuning und bestärkendes Lernen trainiert wurde, um grundlegende Verbesserungen im multimodalen Coding zu erzielen. Das Modell vereint drei Schlüsselfähigkeiten: UI-zu-Code-Generierung, UI-Bearbeitung und UI-Optimierung. Wir erforschen zudem Test-Time-Scaling für die interaktive Generierung, was die systematische Nutzung von Multi-Turn-Feedback ermöglicht. Experimente auf UI-zu-Code- und UI-Optimierungs-Benchmarks zeigen, dass UI2Code^N einen neuen State-of-the-Art unter Open-Source-Modellen etabliert und eine mit führenden Closed-Source-Modellen wie Claude-4-Sonnet und GPT-5 vergleichbare Leistung erzielt. Unser Code und unsere Modelle sind unter https://github.com/zai-org/UI2Code_N verfügbar.

English

User interface (UI) programming is a core yet highly complex part of modern software development. Recent advances in visual language models (VLMs) highlight the potential of automatic UI coding, but current approaches face two key limitations: multimodal coding capabilities remain underdeveloped, and single-turn paradigms make little use of iterative visual feedback. We address these challenges with an interactive UI-to-code paradigm that better reflects real-world workflows and raises the upper bound of achievable performance. Under this paradigm, we present UI2Code^N, a visual language model trained through staged pretraining, fine-tuning, and reinforcement learning to achieve foundational improvements in multimodal coding. The model unifies three key capabilities: UI-to-code generation, UI editing, and UI polishing. We further explore test-time scaling for interactive generation, enabling systematic use of multi-turn feedback. Experiments on UI-to-code and UI polishing benchmarks show that UI2Code^N establishes a new state of the art among open-source models and achieves performance comparable to leading closed-source models such as Claude-4-Sonnet and GPT-5. Our code and models are available at https://github.com/zai-org/UI2Code_N.

UI2Code^N: Ein visuelles Sprachmodell für testzeit-skalierbare, interaktive UI-zu-Code-Generierung

UI2Code^N: A Visual Language Model for Test-Time Scalable Interactive UI-to-Code Generation

papers.abstract

Support