ChatPaper.aiChatPaper

WebVR: Het benchmarken van multimodale LLM's voor het opnieuw creëren van webpagina's vanuit video's via mensgericht afgestemde visuele beoordelingscriteria

WebVR: Benchmarking Multimodal LLMs for WebPage Recreation from Videos via Human-Aligned Visual Rubrics

March 11, 2026
Auteurs: Yuhong Dai, Yanlin Lai, Mitt Huang, Hangyu Guo, Dingming Li, Hongbo Peng, Haodong Li, Yingxiu Zhao, Haoran Lyu, Zheng Ge, Xiangyu Zhang, Daxin Jiang
cs.AI

Samenvatting

Bestaande benchmarks voor webgeneratie maken gebruik van tekstprompts of statische schermafbeeldingen als invoer. Video's brengen echter van nature rijkere signalen over, zoals interactieflow, overgangstiming en bewegingscontinuïteit, die essentieel zijn voor getrouwe webpaginarecreatie. Ondanks dit potentieel blijft webpagina-generatie op basis van video-input grotendeels onontgonnen, zonder toegewijde benchmark voor deze taak. Om deze leemte op te vullen, introduceren we WebVR, een benchmark die evalueert of MLLM's webpagina's getrouw kunnen recreëren op basis van demonstratievideo's. WebVR bevat 175 webpagina's uit diverse categorieën, allemaal geconstrueerd via een gecontroleerde synthese-pipeline in plaats van webcrawling, wat gevarieerde en realistische demonstraties garandeert zonder overlap met bestaande online pagina's. We ontwerpen ook een fijnmazige, op menselijke beoordeling afgestemde visuele rubric die de gegenereerde webpagina's op meerdere dimensies evalueert. Experimenten met 19 modellen tonen aanzienlijke tekortkomingen in het recreëren van fijnmazige stijl en bewegingskwaliteit, terwijl de op rubrics gebaseerde automatische evaluatie 96% overeenstemming met menselijke voorkeuren bereikt. We publiceren de dataset, evaluatietoolkit en basislijresultaten om toekomstig onderzoek naar video-naar-webpagina-generatie te ondersteunen.
English
Existing web-generation benchmarks rely on text prompts or static screenshots as input. However, videos naturally convey richer signals such as interaction flow, transition timing, and motion continuity, which are essential for faithful webpage recreation. Despite this potential, video-conditioned webpage generation remains largely unexplored, with no dedicated benchmark for this task. To fill this gap, we introduce WebVR, a benchmark that evaluates whether MLLMs can faithfully recreate webpages from demonstration videos. WebVR contains 175 webpages across diverse categories, all constructed through a controlled synthesis pipeline rather than web crawling, ensuring varied and realistic demonstrations without overlap with existing online pages. We also design a fine-grained, human-aligned visual rubric that evaluates the generated webpages across multiple dimensions. Experiments on 19 models reveal substantial gaps in recreating fine-grained style and motion quality, while the rubric-based automatic evaluation achieves 96% agreement with human preferences. We release the dataset, evaluation toolkit, and baseline results to support future research on video-to-webpage generation.
PDF192March 24, 2026