WebVR: Avaliação de LLMs Multimodais para Recriação de Páginas Web a partir de Vídeos através de Rúbricas Visuais Alinhadas com Humanos

Resumo

Os benchmarks existentes para geração web dependem de prompts de texto ou capturas de estáticas como entrada. No entanto, os vídeos transmitem naturalmente sinais mais ricos, como fluxo de interação, temporização de transições e continuidade de movimento, que são essenciais para uma recriação fiel de páginas web. Apesar deste potencial, a geração de páginas web condicionada por vídeo permanece amplamente inexplorada, sem um benchmark dedicado para esta tarefa. Para preencher esta lacuna, introduzimos o WebVR, um benchmark que avalia se os MLLMs podem recriar fielmente páginas web a partir de vídeos de demonstração. O WebVR contém 175 páginas web de diversas categorias, todas construídas através de um pipeline de síntese controlada (e não por web crawling), garantindo demonstrações variadas e realistas sem sobreposição com páginas online existentes. Também concebemos uma rubrica visual detalhada e alinhada com a avaliação humana, que avalia as páginas geradas em múltiplas dimensões. Experiências com 19 modelos revelam lacunas substanciais na recriação de estilo detalhado e qualidade de movimento, enquanto a avaliação automática baseada na rubrica atinge 96% de concordância com as preferências humanas. Disponibilizamos o conjunto de dados, o kit de ferramentas de avaliação e os resultados de base para apoiar pesquisas futuras sobre geração de vídeo-para-webpage.

English

Existing web-generation benchmarks rely on text prompts or static screenshots as input. However, videos naturally convey richer signals such as interaction flow, transition timing, and motion continuity, which are essential for faithful webpage recreation. Despite this potential, video-conditioned webpage generation remains largely unexplored, with no dedicated benchmark for this task. To fill this gap, we introduce WebVR, a benchmark that evaluates whether MLLMs can faithfully recreate webpages from demonstration videos. WebVR contains 175 webpages across diverse categories, all constructed through a controlled synthesis pipeline rather than web crawling, ensuring varied and realistic demonstrations without overlap with existing online pages. We also design a fine-grained, human-aligned visual rubric that evaluates the generated webpages across multiple dimensions. Experiments on 19 models reveal substantial gaps in recreating fine-grained style and motion quality, while the rubric-based automatic evaluation achieves 96% agreement with human preferences. We release the dataset, evaluation toolkit, and baseline results to support future research on video-to-webpage generation.