UI2Code^N: Um Modelo de Linguagem Visual para Geração Interativa e Escalável de UI-para-Código em Tempo de Teste

Resumo

A programação de interface de usuário (UI) é uma parte central, mas altamente complexa, do desenvolvimento moderno de software. Os avanços recentes em modelos de linguagem visual (VLMs) destacam o potencial da codificação automática de UIs, mas as abordagens atuais enfrentam duas limitações principais: as capacidades de codificação multimodal permanecem subdesenvolvidas, e os paradigmas de interação única fazem pouco uso do feedback visual iterativo. Nós abordamos esses desafios com um paradigma interativo de UI-para-código que reflete melhor os fluxos de trabalho do mundo real e eleva o limite máximo de desempenho atingível. Sob este paradigma, apresentamos o UI2Code^N, um modelo de linguagem visual treinado por meio de pré-treinamento, ajuste fino e aprendizado por reforço em etapas para alcançar melhorias fundamentais na codificação multimodal. O modelo unifica três capacidades principais: geração de UI-para-código, edição de UI e polimento de UI. Exploramos ainda o escalonamento em tempo de teste para geração interativa, permitindo o uso sistemático de feedback multi-turn. Experimentos em benchmarks de UI-para-código e polimento de UI mostram que o UI2Code^N estabelece um novo estado da arte entre os modelos de código aberto e alcança um desempenho comparável a modelos proprietários líderes, como Claude-4-Sonnet e GPT-5. Nosso código e modelos estão disponíveis em https://github.com/zai-org/UI2Code_N.

English

User interface (UI) programming is a core yet highly complex part of modern software development. Recent advances in visual language models (VLMs) highlight the potential of automatic UI coding, but current approaches face two key limitations: multimodal coding capabilities remain underdeveloped, and single-turn paradigms make little use of iterative visual feedback. We address these challenges with an interactive UI-to-code paradigm that better reflects real-world workflows and raises the upper bound of achievable performance. Under this paradigm, we present UI2Code^N, a visual language model trained through staged pretraining, fine-tuning, and reinforcement learning to achieve foundational improvements in multimodal coding. The model unifies three key capabilities: UI-to-code generation, UI editing, and UI polishing. We further explore test-time scaling for interactive generation, enabling systematic use of multi-turn feedback. Experiments on UI-to-code and UI polishing benchmarks show that UI2Code^N establishes a new state of the art among open-source models and achieves performance comparable to leading closed-source models such as Claude-4-Sonnet and GPT-5. Our code and models are available at https://github.com/zai-org/UI2Code_N.

UI2Code^N: Um Modelo de Linguagem Visual para Geração Interativa e Escalável de UI-para-Código em Tempo de Teste

UI2Code^N: A Visual Language Model for Test-Time Scalable Interactive UI-to-Code Generation

Resumo

Support