UI2Code^N: Un Modelo de Lenguaje Visual para la Generación de UI-a-Código Interactiva y Escalable en Tiempo de Prueba
UI2Code^N: A Visual Language Model for Test-Time Scalable Interactive UI-to-Code Generation
November 11, 2025
Autores: Zhen Yang, Wenyi Hong, Mingde Xu, Xinyue Fan, Weihan Wang, Jiele Cheng, Xiaotao Gu, Jie Tang
cs.AI
Resumen
La programación de interfaces de usuario (UI) es un componente fundamental pero altamente complejo del desarrollo de software moderno. Los avances recientes en modelos de lenguaje visual (VLMs) destacan el potencial de la codificación automática de UI, pero los enfoques actuales enfrentan dos limitaciones principales: las capacidades de codificación multimodal siguen subdesarrolladas, y los paradigmas de un solo turno hacen poco uso de la retroalimentación visual iterativa. Abordamos estos desafíos con un paradigma interactivo de UI-a-código que refleja mejor los flujos de trabajo del mundo real y eleva el límite superior del rendimiento alcanzable. Bajo este paradigma, presentamos UI2Code^N, un modelo de lenguaje visual entrenado mediante preentrenamiento escalonado, ajuste fino y aprendizaje por refuerzo para lograr mejoras fundamentales en la codificación multimodal. El modelo unifica tres capacidades clave: generación de UI-a-código, edición de UI y pulido de UI. Exploramos además el escalado en tiempo de prueba para la generación interactiva, permitiendo el uso sistemático de retroalimentación multiturno. Los experimentos en benchmarks de UI-a-código y pulido de UI muestran que UI2Code^N establece un nuevo estado del arte entre los modelos de código abierto y alcanza un rendimiento comparable a modelos cerrados líderes como Claude-4-Sonnet y GPT-5. Nuestro código y modelos están disponibles en https://github.com/zai-org/UI2Code_N.
English
User interface (UI) programming is a core yet highly complex part of modern software development. Recent advances in visual language models (VLMs) highlight the potential of automatic UI coding, but current approaches face two key limitations: multimodal coding capabilities remain underdeveloped, and single-turn paradigms make little use of iterative visual feedback. We address these challenges with an interactive UI-to-code paradigm that better reflects real-world workflows and raises the upper bound of achievable performance. Under this paradigm, we present UI2Code^N, a visual language model trained through staged pretraining, fine-tuning, and reinforcement learning to achieve foundational improvements in multimodal coding. The model unifies three key capabilities: UI-to-code generation, UI editing, and UI polishing. We further explore test-time scaling for interactive generation, enabling systematic use of multi-turn feedback. Experiments on UI-to-code and UI polishing benchmarks show that UI2Code^N establishes a new state of the art among open-source models and achieves performance comparable to leading closed-source models such as Claude-4-Sonnet and GPT-5. Our code and models are available at https://github.com/zai-org/UI2Code_N.