ChatPaper.aiChatPaper

WebVIA: un framework agentico visione-linguaggio basato sul web per la generazione interattiva e verificabile da interfaccia utente a codice

WebVIA: A Web-based Vision-Language Agentic Framework for Interactive and Verifiable UI-to-Code Generation

November 9, 2025
Autori: Mingde Xu, Zhen Yang, Wenyi Hong, Lihang Pan, Xinyue Fan, Yan Wang, Xiaotao Gu, Bin Xu, Jie Tang
cs.AI

Abstract

Lo sviluppo dell'interfaccia utente (UI) richiede la traduzione di mockup di design in codice funzionale, un processo che rimane ripetitivo e laborioso. Sebbene i recenti Modelli Visione-Linguaggio (VLM) automatizzino la generazione da UI a codice, essi generano solo layout HTML/CSS/JavaScript statici, privi di interattività. Per affrontare questo problema, proponiamo WebVIA, il primo framework agente per la generazione e validazione interattiva da UI a codice. Il framework comprende tre componenti: 1) un agente di esplorazione per acquisire screenshot dell'UI in stati multipli; 2) un modello UI2Code che genera codice interattivo eseguibile; 3) un modulo di validazione che verifica l'interattività. Gli esperimenti dimostrano che WebVIA-Agent raggiunge un'esplorazione dell'UI più stabile e accurata rispetto ad agenti generici (ad esempio, Gemini-2.5-Pro). Inoltre, i nostri modelli WebVIA-UI2Code messi a punto mostrano miglioramenti sostanziali nella generazione di codice HTML/CSS/JavaScript eseguibile e interattivo, superando le loro controparti base in benchmark sia interattivi che statici di UI2Code. Il nostro codice e i nostri modelli sono disponibili su https://zheny2751-dotcom.github.io/webvia.github.io/{https://webvia.github.io}.
English
User interface (UI) development requires translating design mockups into functional code, a process that remains repetitive and labor-intensive. While recent Vision-Language Models (VLMs) automate UI-to-Code generation, they generate only static HTML/CSS/JavaScript layouts lacking interactivity. To address this, we propose WebVIA, the first agentic framework for interactive UI-to-Code generation and validation. The framework comprises three components: 1) an exploration agent to capture multi-state UI screenshots; 2) a UI2Code model that generates executable interactive code; 3) a validation module that verifies the interactivity. Experiments demonstrate that WebVIA-Agent achieves more stable and accurate UI exploration than general-purpose agents (e.g., Gemini-2.5-Pro). In addition, our fine-tuned WebVIA-UI2Code models exhibit substantial improvements in generating executable and interactive HTML/CSS/JavaScript code, outperforming their base counterparts across both interactive and static UI2Code benchmarks. Our code and models are available at https://zheny2751-dotcom.github.io/webvia.github.io/{https://webvia.github.io}.
PDF132December 1, 2025