WebVR: Оценка многомодальных языковых моделей для воссоздания веб-страниц из видео с помощью визуальных критериев, согласованных с человеком
WebVR: Benchmarking Multimodal LLMs for WebPage Recreation from Videos via Human-Aligned Visual Rubrics
March 11, 2026
Авторы: Yuhong Dai, Yanlin Lai, Mitt Huang, Hangyu Guo, Dingming Li, Hongbo Peng, Haodong Li, Yingxiu Zhao, Haoran Lyu, Zheng Ge, Xiangyu Zhang, Daxin Jiang
cs.AI
Аннотация
Существующие бенчмарки веб-генерации используют текстовые промпты или статические скриншоты в качестве входных данных. Однако видео естественным образом передают более богатые сигналы, такие как поток взаимодействий, время переходов и непрерывность движения, которые необходимы для точного воссоздания веб-страниц. Несмотря на этот потенциал, генерация веб-страниц на основе видео остаётся в значительной степени неисследованной областью, для которой не существует специализированного бенчмарка. Чтобы заполнить этот пробел, мы представляем WebVR — бенчмарк, который оценивает способность MLLM достоверно воссоздавать веб-страницы по демонстрационным видео. WebVR содержит 175 веб-страниц из различных категорий, все они созданы с помощью контролируемого синтезирующего конвейера, а не путём веб-краулинга, что обеспечивает разнообразные и реалистичные демонстрации без пересечений с существующими онлайн-страницами. Мы также разработали детализированную визуальную рубрику, согласованную с человеческой оценкой, которая оценивает сгенерированные веб-страницы по множеству параметров. Эксперименты с 19 моделями выявили значительный разрыв в воспроизведении детализированного стиля и качества анимации, в то время как автоматическая оценка на основе рубрики достигла 96% согласия с человеческими предпочтениями. Мы публикуем набор данных, инструментарий для оценки и базовые результаты для поддержки будущих исследований в области генерации веб-страниц из видео.
English
Existing web-generation benchmarks rely on text prompts or static screenshots as input. However, videos naturally convey richer signals such as interaction flow, transition timing, and motion continuity, which are essential for faithful webpage recreation. Despite this potential, video-conditioned webpage generation remains largely unexplored, with no dedicated benchmark for this task. To fill this gap, we introduce WebVR, a benchmark that evaluates whether MLLMs can faithfully recreate webpages from demonstration videos. WebVR contains 175 webpages across diverse categories, all constructed through a controlled synthesis pipeline rather than web crawling, ensuring varied and realistic demonstrations without overlap with existing online pages. We also design a fine-grained, human-aligned visual rubric that evaluates the generated webpages across multiple dimensions. Experiments on 19 models reveal substantial gaps in recreating fine-grained style and motion quality, while the rubric-based automatic evaluation achieves 96% agreement with human preferences. We release the dataset, evaluation toolkit, and baseline results to support future research on video-to-webpage generation.