WebVIA : Un cadre agentique vision-langage basé sur le Web pour la génération interactive et vérifiable d'interface utilisateur vers code
WebVIA: A Web-based Vision-Language Agentic Framework for Interactive and Verifiable UI-to-Code Generation
November 9, 2025
papers.authors: Mingde Xu, Zhen Yang, Wenyi Hong, Lihang Pan, Xinyue Fan, Yan Wang, Xiaotao Gu, Bin Xu, Jie Tang
cs.AI
papers.abstract
Le développement d'interfaces utilisateur (UI) nécessite de traduire des maquettes de conception en code fonctionnel, un processus qui reste répétitif et laborieux. Bien que les modèles vision-langage (VLM) récents automatisent la génération de code à partir d'UI, ils ne produisent que des mises en page HTML/CSS/JavaScript statiques, dépourvues d'interactivité. Pour résoudre ce problème, nous proposons WebVIA, le premier cadre agentiel pour la génération et la validation interactives de code à partir d'UI. Le cadre comprend trois composants : 1) un agent d'exploration pour capturer des captures d'écran d'UI multi-états ; 2) un modèle UI2Code qui génère du code interactif exécutable ; 3) un module de validation qui vérifie l'interactivité. Les expériences démontrent que WebVIA-Agent réalise une exploration d'UI plus stable et précise que les agents généralistes (par exemple, Gemini-2.5-Pro). De plus, nos modèles WebVIA-UI2Code affinent́s présentent des améliorations substantielles dans la génération de code HTML/CSS/JavaScript exécutable et interactif, surpassant leurs homologues de base sur les benchmarks de génération d'UI interactives et statiques. Notre code et nos modèles sont disponibles à l'adresse https://zheny2751-dotcom.github.io/webvia.github.io/{https://webvia.github.io}.
English
User interface (UI) development requires translating design mockups into functional code, a process that remains repetitive and labor-intensive. While recent Vision-Language Models (VLMs) automate UI-to-Code generation, they generate only static HTML/CSS/JavaScript layouts lacking interactivity. To address this, we propose WebVIA, the first agentic framework for interactive UI-to-Code generation and validation. The framework comprises three components: 1) an exploration agent to capture multi-state UI screenshots; 2) a UI2Code model that generates executable interactive code; 3) a validation module that verifies the interactivity. Experiments demonstrate that WebVIA-Agent achieves more stable and accurate UI exploration than general-purpose agents (e.g., Gemini-2.5-Pro). In addition, our fine-tuned WebVIA-UI2Code models exhibit substantial improvements in generating executable and interactive HTML/CSS/JavaScript code, outperforming their base counterparts across both interactive and static UI2Code benchmarks. Our code and models are available at https://zheny2751-dotcom.github.io/webvia.github.io/{https://webvia.github.io}.