ChatPaper.aiChatPaper

UI2Code^N: Визуальная языковая модель для масштабируемой генерации кода из интерактивного пользовательского интерфейса во время тестирования

UI2Code^N: A Visual Language Model for Test-Time Scalable Interactive UI-to-Code Generation

November 11, 2025
Авторы: Zhen Yang, Wenyi Hong, Mingde Xu, Xinyue Fan, Weihan Wang, Jiele Cheng, Xiaotao Gu, Jie Tang
cs.AI

Аннотация

Программирование пользовательского интерфейса (UI) является ключевым, но крайне сложным аспектом современной разработки программного обеспечения. Недавние достижения в области визуальных языковых моделей (VLM) подчеркивают потенциал автоматического генерации кода для UI, однако современные подходы сталкиваются с двумя основными ограничениями: мультимодальные возможности генерации кода остаются недостаточно развитыми, а одношаговые парадигмы слабо используют итеративную визуальную обратную связь. Мы решаем эти проблемы с помощью интерактивной парадигмы UI-to-code, которая лучше отражает реальные рабочие процессы и повышает верхний предел достижимой производительности. В рамках этой парадигмы мы представляем UI2Code^N — визуальную языковую модель, обученную с помощью поэтапного предварительного обучения, тонкой настройки и обучения с подкреплением для достижения фундаментального улучшения в мультимодальной генерации кода. Модель объединяет три ключевые возможности: генерацию кода из UI, редактирование UI и полировку UI. Мы также исследуем масштабирование во время тестирования для интерактивной генерации, позволяя систематически использовать многошаговую обратную связь. Эксперименты на бенчмарках по генерации кода из UI и полировке UI показывают, что UI2Code^N устанавливает новый state-of-the-art среди моделей с открытым исходным кодом и демонстрирует производительность, сопоставимую с ведущими проприетарными моделями, такими как Claude-4-Sonnet и GPT-5. Наш код и модели доступны по адресу https://github.com/zai-org/UI2Code_N.
English
User interface (UI) programming is a core yet highly complex part of modern software development. Recent advances in visual language models (VLMs) highlight the potential of automatic UI coding, but current approaches face two key limitations: multimodal coding capabilities remain underdeveloped, and single-turn paradigms make little use of iterative visual feedback. We address these challenges with an interactive UI-to-code paradigm that better reflects real-world workflows and raises the upper bound of achievable performance. Under this paradigm, we present UI2Code^N, a visual language model trained through staged pretraining, fine-tuning, and reinforcement learning to achieve foundational improvements in multimodal coding. The model unifies three key capabilities: UI-to-code generation, UI editing, and UI polishing. We further explore test-time scaling for interactive generation, enabling systematic use of multi-turn feedback. Experiments on UI-to-code and UI polishing benchmarks show that UI2Code^N establishes a new state of the art among open-source models and achieves performance comparable to leading closed-source models such as Claude-4-Sonnet and GPT-5. Our code and models are available at https://github.com/zai-org/UI2Code_N.
PDF304December 1, 2025