WebVR : Évaluation comparative des LLM multimodaux pour la recréation de pages web à partir de vidéos via des rubriques visuelles alignées sur l'humain
WebVR: Benchmarking Multimodal LLMs for WebPage Recreation from Videos via Human-Aligned Visual Rubrics
March 11, 2026
Auteurs: Yuhong Dai, Yanlin Lai, Mitt Huang, Hangyu Guo, Dingming Li, Hongbo Peng, Haodong Li, Yingxiu Zhao, Haoran Lyu, Zheng Ge, Xiangyu Zhang, Daxin Jiang
cs.AI
Résumé
Les benchmarks existants pour la génération web reposent sur des invites textuelles ou des captures d'écran statiques comme entrée. Cependant, les vidéos transmettent naturellement des signaux plus riches tels que le flux d'interaction, le timing des transitions et la continuité du mouvement, qui sont essentiels pour une recréation fidèle de pages web. Malgré ce potentiel, la génération de pages web conditionnée par la vidéo reste largement inexplorée, sans benchmark dédié à cette tâche. Pour combler cette lacune, nous présentons WebVR, un benchmark qui évalue si les MLLMs peuvent recréer fidèlement des pages web à partir de vidéos de démonstration. WebVR contient 175 pages web couvrant des catégories variées, toutes construites via un pipeline de synthèse contrôlé plutôt que par web scraping, garantissant des démonstrations variées et réalistes sans chevauchement avec les pages en ligne existantes. Nous concevons également une grille d'évaluation visuelle fine, alignée sur le jugement humain, qui évalue les pages web générées selon de multiples dimensions. Les expériences sur 19 modèles révèlent des écarts substantiels dans la recréation du style fin et de la qualité du mouvement, tandis que l'évaluation automatique basée sur la grille atteint 96 % d'accord avec les préférences humaines. Nous publions le jeu de données, la boîte à outils d'évaluation et les résultats de référence pour soutenir les futures recherches sur la génération de vidéo à page web.
English
Existing web-generation benchmarks rely on text prompts or static screenshots as input. However, videos naturally convey richer signals such as interaction flow, transition timing, and motion continuity, which are essential for faithful webpage recreation. Despite this potential, video-conditioned webpage generation remains largely unexplored, with no dedicated benchmark for this task. To fill this gap, we introduce WebVR, a benchmark that evaluates whether MLLMs can faithfully recreate webpages from demonstration videos. WebVR contains 175 webpages across diverse categories, all constructed through a controlled synthesis pipeline rather than web crawling, ensuring varied and realistic demonstrations without overlap with existing online pages. We also design a fine-grained, human-aligned visual rubric that evaluates the generated webpages across multiple dimensions. Experiments on 19 models reveal substantial gaps in recreating fine-grained style and motion quality, while the rubric-based automatic evaluation achieves 96% agreement with human preferences. We release the dataset, evaluation toolkit, and baseline results to support future research on video-to-webpage generation.