WebVR: Valutazione di Modelli Linguistici Multimodali per la Ricreazione di Pagine Web da Video tramite Griglie di Valutazione Visiva Allineate all'Umano

Abstract

I benchmark esistenti per la generazione web si basano su prompt testuali o screenshot statici come input. Tuttavia, i video trasmettono naturalmente segnali più ricchi come il flusso interattivo, la tempistica delle transizioni e la continuità del movimento, elementi essenziali per una ricreazione fedele delle pagine web. Nonostante questo potenziale, la generazione di pagine web condizionata da video rimane in gran parte inesplorata, senza un benchmark dedicato a questo compito. Per colmare questa lacuna, introduciamo WebVR, un benchmark che valuta se i MLLM possono ricreare fedelmente pagine web a partire da video dimostrativi. WebVR contiene 175 pagine web di diverse categorie, tutte costruite attraverso una pipeline di sintesi controllata anziché tramite web crawling, garantendo dimostrazioni varie e realistiche senza sovrapposizioni con pagine online esistenti. Abbiamo inoltre progettato una rubrica visiva granulare e allineata al giudizio umano che valuta le pagine generate su molteplici dimensioni. Esperimenti su 19 modelli rivelano divari sostanziali nella ricreazione dello stile granulare e della qualità del movimento, mentre la valutazione automatica basata sulla rubrica raggiunge un accordo del 96% con le preferenze umane. Rilasciamo il dataset, il toolkit di valutazione e i risultati baseline per supportare la ricerca futura sulla generazione da video a pagina web.

English

Existing web-generation benchmarks rely on text prompts or static screenshots as input. However, videos naturally convey richer signals such as interaction flow, transition timing, and motion continuity, which are essential for faithful webpage recreation. Despite this potential, video-conditioned webpage generation remains largely unexplored, with no dedicated benchmark for this task. To fill this gap, we introduce WebVR, a benchmark that evaluates whether MLLMs can faithfully recreate webpages from demonstration videos. WebVR contains 175 webpages across diverse categories, all constructed through a controlled synthesis pipeline rather than web crawling, ensuring varied and realistic demonstrations without overlap with existing online pages. We also design a fine-grained, human-aligned visual rubric that evaluates the generated webpages across multiple dimensions. Experiments on 19 models reveal substantial gaps in recreating fine-grained style and motion quality, while the rubric-based automatic evaluation achieves 96% agreement with human preferences. We release the dataset, evaluation toolkit, and baseline results to support future research on video-to-webpage generation.

WebVR: Valutazione di Modelli Linguistici Multimodali per la Ricreazione di Pagine Web da Video tramite Griglie di Valutazione Visiva Allineate all'Umano

WebVR: Benchmarking Multimodal LLMs for WebPage Recreation from Videos via Human-Aligned Visual Rubrics

Abstract

Support