WebVIA: Ein webbasiertes visuell-sprachliches agentisches Framework für interaktive und verifizierbare UI-zu-Code-Generierung
WebVIA: A Web-based Vision-Language Agentic Framework for Interactive and Verifiable UI-to-Code Generation
November 9, 2025
papers.authors: Mingde Xu, Zhen Yang, Wenyi Hong, Lihang Pan, Xinyue Fan, Yan Wang, Xiaotao Gu, Bin Xu, Jie Tang
cs.AI
papers.abstract
Die Entwicklung von Benutzeroberflächen (UI) erfordert die Umsetzung von Designvorlagen in funktionalen Code, ein Prozess, der nach wie vor repetitiv und arbeitsintensiv bleibt. Während neuere Vision-Language-Models (VLMs) die UI-zu-Code-Generierung automatisieren, erzeugen sie lediglich statische HTML/CSS/JavaScript-Layouts ohne Interaktivität. Um dies zu adressieren, schlagen wir WebVIA vor, das erste agentenbasierte Framework für die interaktive UI-zu-Code-Generierung und Validierung. Das Framework besteht aus drei Komponenten: 1) einem Explorationsagenten zum Erfassen von UI-Screenshots mit mehreren Zuständen; 2) einem UI2Code-Modell, das ausführbaren interaktiven Code generiert; 3) einem Validierungsmodul, das die Interaktivität überprüft. Experimente zeigen, dass WebVIA-Agent eine stabilere und genauere UI-Exploration erreicht als allgemeine Agenten (z.B. Gemini-2.5-Pro). Zudem weisen unsere feinabgestimmten WebVIA-UI2Code-Modelle erhebliche Verbesserungen bei der Generierung von ausführbarem und interaktivem HTML/CSS/JavaScript-Code auf und übertreffen ihre Basisversionen sowohl in interaktiven als auch in statischen UI2Code-Benchmarks. Unser Code und unsere Modelle sind verfügbar unter https://webvia.github.io.
English
User interface (UI) development requires translating design mockups into functional code, a process that remains repetitive and labor-intensive. While recent Vision-Language Models (VLMs) automate UI-to-Code generation, they generate only static HTML/CSS/JavaScript layouts lacking interactivity. To address this, we propose WebVIA, the first agentic framework for interactive UI-to-Code generation and validation. The framework comprises three components: 1) an exploration agent to capture multi-state UI screenshots; 2) a UI2Code model that generates executable interactive code; 3) a validation module that verifies the interactivity. Experiments demonstrate that WebVIA-Agent achieves more stable and accurate UI exploration than general-purpose agents (e.g., Gemini-2.5-Pro). In addition, our fine-tuned WebVIA-UI2Code models exhibit substantial improvements in generating executable and interactive HTML/CSS/JavaScript code, outperforming their base counterparts across both interactive and static UI2Code benchmarks. Our code and models are available at https://zheny2751-dotcom.github.io/webvia.github.io/{https://webvia.github.io}.