WebVIA: Ein webbasiertes visuell-sprachliches agentisches Framework für interaktive und verifizierbare UI-zu-Code-Generierung

papers.abstract

Die Entwicklung von Benutzeroberflächen (UI) erfordert die Umsetzung von Designvorlagen in funktionalen Code, ein Prozess, der nach wie vor repetitiv und arbeitsintensiv bleibt. Während neuere Vision-Language-Models (VLMs) die UI-zu-Code-Generierung automatisieren, erzeugen sie lediglich statische HTML/CSS/JavaScript-Layouts ohne Interaktivität. Um dies zu adressieren, schlagen wir WebVIA vor, das erste agentenbasierte Framework für die interaktive UI-zu-Code-Generierung und Validierung. Das Framework besteht aus drei Komponenten: 1) einem Explorationsagenten zum Erfassen von UI-Screenshots mit mehreren Zuständen; 2) einem UI2Code-Modell, das ausführbaren interaktiven Code generiert; 3) einem Validierungsmodul, das die Interaktivität überprüft. Experimente zeigen, dass WebVIA-Agent eine stabilere und genauere UI-Exploration erreicht als allgemeine Agenten (z.B. Gemini-2.5-Pro). Zudem weisen unsere feinabgestimmten WebVIA-UI2Code-Modelle erhebliche Verbesserungen bei der Generierung von ausführbarem und interaktivem HTML/CSS/JavaScript-Code auf und übertreffen ihre Basisversionen sowohl in interaktiven als auch in statischen UI2Code-Benchmarks. Unser Code und unsere Modelle sind verfügbar unter https://webvia.github.io.

English

User interface (UI) development requires translating design mockups into functional code, a process that remains repetitive and labor-intensive. While recent Vision-Language Models (VLMs) automate UI-to-Code generation, they generate only static HTML/CSS/JavaScript layouts lacking interactivity. To address this, we propose WebVIA, the first agentic framework for interactive UI-to-Code generation and validation. The framework comprises three components: 1) an exploration agent to capture multi-state UI screenshots; 2) a UI2Code model that generates executable interactive code; 3) a validation module that verifies the interactivity. Experiments demonstrate that WebVIA-Agent achieves more stable and accurate UI exploration than general-purpose agents (e.g., Gemini-2.5-Pro). In addition, our fine-tuned WebVIA-UI2Code models exhibit substantial improvements in generating executable and interactive HTML/CSS/JavaScript code, outperforming their base counterparts across both interactive and static UI2Code benchmarks. Our code and models are available at https://zheny2751-dotcom.github.io/webvia.github.io/{https://webvia.github.io}.

WebVIA: Ein webbasiertes visuell-sprachliches agentisches Framework für interaktive und verifizierbare UI-zu-Code-Generierung

WebVIA: A Web-based Vision-Language Agentic Framework for Interactive and Verifiable UI-to-Code Generation

papers.abstract

Support