ChatPaper.aiChatPaper

WebVR: Benchmarking multimodaler LLMs zur Webseiten-Rekreation aus Videos mittels human-aligned visueller Bewertungskriterien

WebVR: Benchmarking Multimodal LLMs for WebPage Recreation from Videos via Human-Aligned Visual Rubrics

March 11, 2026
Autoren: Yuhong Dai, Yanlin Lai, Mitt Huang, Hangyu Guo, Dingming Li, Hongbo Peng, Haodong Li, Yingxiu Zhao, Haoran Lyu, Zheng Ge, Xiangyu Zhang, Daxin Jiang
cs.AI

Zusammenfassung

Bestehende Benchmarks für Webseiten-Generierung verwenden Textprompts oder statische Screenshots als Eingabe. Videos hingegen vermitteln natürlicherweise reichhaltigere Signale wie Interaktionsabläufe, Übergangszeitpunkte und Bewegungsflüssigkeit, die für die originalgetreue Nachbildung von Webseiten entscheidend sind. Trotz dieses Potenzials bleibt die videobasierte Webseiten-Generierung weitgehend unerforscht, da es keinen speziellen Benchmark für diese Aufgabe gibt. Um diese Lücke zu schließen, stellen wir WebVR vor – einen Benchmark, der evaluiert, ob MLLMs Webseiten aus Demonstrationsvideos originalgetreu nachbilden können. WebVR umfasst 175 Webseiten aus verschiedenen Kategorien, die alle durch eine kontrollierte Synthese-Pipeline erstellt wurden, anstatt durch Web-Crawling. Dies gewährleistet abwechslungsreiche und realistische Demonstrationen ohne Überschneidungen mit bestehenden Online-Seiten. Zusätzlich entwickeln wir einen detaillierten, menschlich abgestimmten Bewertungsmaßstab, der die generierten Webseiten in mehreren Dimensionen evaluiert. Experimente mit 19 Modellen zeigen erhebliche Defizite bei der Nachbildung fein abgestimmter Stilelemente und Bewegungsqualität, während die automatisierte Bewertung basierend auf unserem Maßstab eine 96%ige Übereinstimmung mit menschlichen Präferenzen erreicht. Wir veröffentlichen den Datensatz, das Evaluationstoolkit und Baseline-Ergebnisse, um zukünftige Forschung zur Video-zu-Webseite-Generierung zu unterstützen.
English
Existing web-generation benchmarks rely on text prompts or static screenshots as input. However, videos naturally convey richer signals such as interaction flow, transition timing, and motion continuity, which are essential for faithful webpage recreation. Despite this potential, video-conditioned webpage generation remains largely unexplored, with no dedicated benchmark for this task. To fill this gap, we introduce WebVR, a benchmark that evaluates whether MLLMs can faithfully recreate webpages from demonstration videos. WebVR contains 175 webpages across diverse categories, all constructed through a controlled synthesis pipeline rather than web crawling, ensuring varied and realistic demonstrations without overlap with existing online pages. We also design a fine-grained, human-aligned visual rubric that evaluates the generated webpages across multiple dimensions. Experiments on 19 models reveal substantial gaps in recreating fine-grained style and motion quality, while the rubric-based automatic evaluation achieves 96% agreement with human preferences. We release the dataset, evaluation toolkit, and baseline results to support future research on video-to-webpage generation.
PDF172March 18, 2026