ChatPaper.aiChatPaper

WebVIA: Веб-ориентированный агентный фреймворк для генерации кода из пользовательского интерфейса с поддержкой зрения и языка, интерактивностью и возможностью верификации

WebVIA: A Web-based Vision-Language Agentic Framework for Interactive and Verifiable UI-to-Code Generation

November 9, 2025
Авторы: Mingde Xu, Zhen Yang, Wenyi Hong, Lihang Pan, Xinyue Fan, Yan Wang, Xiaotao Gu, Bin Xu, Jie Tang
cs.AI

Аннотация

Разработка пользовательского интерфейса (UI) требует преобразования дизайн-макетов в функциональный код — процесс, который остается рутинным и трудоемким. Хотя современные Vision-Language Models (VLM) автоматизируют генерацию кода из UI, они создают лишь статические макеты на HTML/CSS/JavaScript, лишенные интерактивности. Для решения этой проблемы мы предлагаем WebVIA — первую агентную фреймворк-систему для генерации и валидации интерактивного кода из UI. Фреймворк состоит из трех компонентов: 1) агента исследования для захвата скриншотов UI в нескольких состояниях; 2) модели UI2Code, генерирующей исполняемый интерактивный код; 3) модуля валидации, проверяющего интерактивность. Эксперименты показывают, что WebVIA-Agent обеспечивает более стабильное и точное исследование UI по сравнению с универсальными агентами (например, Gemini-2.5-Pro). Кроме того, наши дообученные модели WebVIA-UI2Code демонстрируют значительное улучшение в генерации исполняемого и интерактивного кода на HTML/CSS/JavaScript, превосходя базовые версии как на интерактивных, так и на статических бенчмарках UI2Code. Наш код и модели доступны по адресу https://zheny2751-dotcom.github.io/webvia.github.io/{https://webvia.github.io}.
English
User interface (UI) development requires translating design mockups into functional code, a process that remains repetitive and labor-intensive. While recent Vision-Language Models (VLMs) automate UI-to-Code generation, they generate only static HTML/CSS/JavaScript layouts lacking interactivity. To address this, we propose WebVIA, the first agentic framework for interactive UI-to-Code generation and validation. The framework comprises three components: 1) an exploration agent to capture multi-state UI screenshots; 2) a UI2Code model that generates executable interactive code; 3) a validation module that verifies the interactivity. Experiments demonstrate that WebVIA-Agent achieves more stable and accurate UI exploration than general-purpose agents (e.g., Gemini-2.5-Pro). In addition, our fine-tuned WebVIA-UI2Code models exhibit substantial improvements in generating executable and interactive HTML/CSS/JavaScript code, outperforming their base counterparts across both interactive and static UI2Code benchmarks. Our code and models are available at https://zheny2751-dotcom.github.io/webvia.github.io/{https://webvia.github.io}.
PDF132December 1, 2025