WebVR: Evaluación de Modelos de Lenguaje Multimodales para la Recreación de Páginas Web a partir de Vídeos mediante Rúbricas Visuales Alineadas con el Ser Humano

Resumen

Los puntos de referencia existentes para la generación web utilizan como entrada instrucciones de texto o capturas de pantalla estáticas. Sin embargo, los vídeos transmiten de forma natural señales más ricas, como el flujo de interacción, el tiempo de las transiciones y la continuidad del movimiento, elementos esenciales para una recreación fiel de páginas web. A pesar de este potencial, la generación de páginas web condicionada por vídeo sigue siendo un campo prácticamente inexplorado, sin un benchmark dedicado a esta tarea. Para llenar este vacío, presentamos WebVR, un benchmark que evalúa si los MLLM pueden recrear fielmente páginas web a partir de vídeos de demostración. WebVR contiene 175 páginas web de diversas categorías, todas construidas mediante un pipeline de síntesis controlado en lugar de mediante rastreo web, lo que garantiza demostraciones variadas y realistas sin solapamiento con páginas online existentes. También diseñamos una rúbrica visual detallada y alineada con criterios humanos que evalúa las páginas web generadas en múltiples dimensiones. Los experimentos con 19 modelos revelan brechas sustanciales en la recreación de estilos detallados y la calidad del movimiento, mientras que la evaluación automática basada en la rúbrica alcanza un 96% de concordancia con las preferencias humanas. Publicamos el conjunto de datos, el kit de herramientas de evaluación y los resultados de referencia para apoyar futuras investigaciones sobre la generación de páginas web a partir de vídeo.

English

Existing web-generation benchmarks rely on text prompts or static screenshots as input. However, videos naturally convey richer signals such as interaction flow, transition timing, and motion continuity, which are essential for faithful webpage recreation. Despite this potential, video-conditioned webpage generation remains largely unexplored, with no dedicated benchmark for this task. To fill this gap, we introduce WebVR, a benchmark that evaluates whether MLLMs can faithfully recreate webpages from demonstration videos. WebVR contains 175 webpages across diverse categories, all constructed through a controlled synthesis pipeline rather than web crawling, ensuring varied and realistic demonstrations without overlap with existing online pages. We also design a fine-grained, human-aligned visual rubric that evaluates the generated webpages across multiple dimensions. Experiments on 19 models reveal substantial gaps in recreating fine-grained style and motion quality, while the rubric-based automatic evaluation achieves 96% agreement with human preferences. We release the dataset, evaluation toolkit, and baseline results to support future research on video-to-webpage generation.

WebVR: Evaluación de Modelos de Lenguaje Multimodales para la Recreación de Páginas Web a partir de Vídeos mediante Rúbricas Visuales Alineadas con el Ser Humano

WebVR: Benchmarking Multimodal LLMs for WebPage Recreation from Videos via Human-Aligned Visual Rubrics

Resumen

Support