ChatPaper.aiChatPaper

WebVR: 인간-정렬 시각적 루브릭을 통한 비디오 기반 웹페이지 재생성을 위한 멀티모달 LLM 벤치마킹

WebVR: Benchmarking Multimodal LLMs for WebPage Recreation from Videos via Human-Aligned Visual Rubrics

March 11, 2026
저자: Yuhong Dai, Yanlin Lai, Mitt Huang, Hangyu Guo, Dingming Li, Hongbo Peng, Haodong Li, Yingxiu Zhao, Haoran Lyu, Zheng Ge, Xiangyu Zhang, Daxin Jiang
cs.AI

초록

기존 웹 생성 벤치마크는 텍스트 프롬프트나 정적 스크린샷을 입력으로 사용합니다. 그러나 비디오는 상호작용 흐름, 전환 타이밍, 동작 연속성 등 충실한 웹페이지 재현에 필수적인 풍부한 신호를 자연스럽게 전달합니다. 이러한 잠재력에도 불구하고, 비디오 기반 웹페이지 생성은 본격적으로 연구되지 않았으며 이 작업을 위한 전용 벤치마크가 부재한 실정입니다. 이러한 공백을 메우기 위해 우리는 MLLM이 데모 비디오로부터 웹페이지를 충실히 재현할 수 있는지 평가하는 벤치마크인 WebVR을 소개합니다. WebVR은 다양한 범주의 175개 웹페이지로 구성되어 있으며, 모두 웹 크롤링이 아닌 제어된 합성 파이프라인을 통해 구축되어 기존 온라인 페이지와의 중복 없이 다양하고 현실적인 데모를 보장합니다. 또한 생성된 웹페이지를 다중 차원에서 평가하는 세분화되고 인간 평가와 조응하는 시각적 평가지표를 설계했습니다. 19개 모델에 대한 실험 결과, 세부 스타일과 동작 품질 재현에서 상당한 격차가 확인된 반면, 평가지표 기반 자동 평가는 인간 선호도와 96% 일치율을 달성했습니다. 우리는 비디오-웹페이지 생성 분야의 향후 연구를 지원하기 위해 데이터셋, 평가 도구 및 기준 결과를 공개합니다.
English
Existing web-generation benchmarks rely on text prompts or static screenshots as input. However, videos naturally convey richer signals such as interaction flow, transition timing, and motion continuity, which are essential for faithful webpage recreation. Despite this potential, video-conditioned webpage generation remains largely unexplored, with no dedicated benchmark for this task. To fill this gap, we introduce WebVR, a benchmark that evaluates whether MLLMs can faithfully recreate webpages from demonstration videos. WebVR contains 175 webpages across diverse categories, all constructed through a controlled synthesis pipeline rather than web crawling, ensuring varied and realistic demonstrations without overlap with existing online pages. We also design a fine-grained, human-aligned visual rubric that evaluates the generated webpages across multiple dimensions. Experiments on 19 models reveal substantial gaps in recreating fine-grained style and motion quality, while the rubric-based automatic evaluation achieves 96% agreement with human preferences. We release the dataset, evaluation toolkit, and baseline results to support future research on video-to-webpage generation.
PDF172March 18, 2026