ChatPaper.aiChatPaper

IWR-Bench: I modelli linguistici visivi di grandi dimensioni possono ricostruire una pagina web interattiva da un video di interazione utente?

IWR-Bench: Can LVLMs reconstruct interactive webpage from a user interaction video?

September 29, 2025
Autori: Yang Chen, Minghao Liu, Yufan Shen, Yunwen Li, Tianyuan Huang, Xinyu Fang, Tianyu Zheng, Wenxuan Huang, Cheng Yang, Daocheng Fu, Jianbiao Mei, Rong Wu, Licheng Wen, Xuemeng Yang, Song Mao, Qunshu Lin, Zhi Yu, Yongliang Shen, Yu Qiao, Botian Shi
cs.AI

Abstract

Il compito di conversione da pagina web a codice richiede ai modelli di comprendere le rappresentazioni visive delle pagine web e generare il codice corrispondente. Tuttavia, i benchmark esistenti si concentrano principalmente su compiti statici di conversione da screenshot a codice, trascurando così le interazioni dinamiche fondamentali per le applicazioni web del mondo reale. Per affrontare questa limitazione, questo articolo introduce IWR-Bench, un nuovo benchmark per valutare le capacità dei Large Vision-Language Models (LVLM) nella ricostruzione interattiva di pagine web da video. IWR-Bench comprende 113 task accuratamente selezionati da 100 siti web reali, con 1.001 azioni e caratterizzati da diverse complessità di interazione (ad esempio, giochi web), stili visivi e domini. In linea con le pratiche standard di sviluppo web, ogni task include non solo video di interazione utente ma anche tutte le risorse statiche raccolte (ad esempio, immagini, video). Questo benchmark valuta i modelli su due sfide fondamentali: il ragionamento multi-modale completo per dedurre la logica di interazione da video e risorse, e la generazione avanzata di codice per tradurre questa logica in codice funzionale. Un framework agent-as-a-judge con un sistema metrico completo valuta automaticamente la correttezza funzionale e la fedeltà visiva delle pagine web generate. Esperimenti estesi su 28 LVLM rivelano una sfida significativa: il miglior modello raggiunge un punteggio complessivo di solo il 36,35%, poiché la correttezza funzionale (24,39% IFS) è significativamente inferiore alla fedeltà visiva (64,25% VFS). Questi risultati evidenziano limitazioni critiche nella capacità dei modelli attuali di ragionare sulle dinamiche temporali e sintetizzare logiche guidate da eventi, stabilendo IWR-Bench come una frontiera impegnativa per la ricerca vision-language. Il benchmark e il codice di valutazione saranno resi pubblicamente disponibili. Il codice è disponibile all'indirizzo https://github.com/L-O-I/IWR-Bench.
English
The webpage-to-code task requires models to understand visual representations of webpages and generate corresponding code. However, existing benchmarks primarily focus on static screenshot-to-code tasks, thereby overlooking the dynamic interactions fundamental to real-world web applications. To address this limitation, this paper introduces IWR-Bench, a novel benchmark for evaluating the capabilities of Large Vision-Language Models (LVLMs) in interactive webpage reconstruction from video. IWR-Bench comprises 113 meticulously curated tasks from 100 real-world websites, with 1,001 actions and featuring diverse interaction complexities (e.g., web games), visual styles, and domains. Aligning with standard web development practices, each task includes not only user interaction videos but also all crawled static assets (e.g., images, videos). This benchmark evaluates models on two fundamental challenges: comprehensive multi-modal reasoning to infer interaction logic from video and assets, and advanced code generation to translate this logic into functional code. An agent-as-a-judge framework with a comprehensive metric system automatically assesses the functional correctness and visual fidelity of generated webpages. Extensive experiments on 28 LVLMs reveal a significant challenge: the best model achieves an overall score of only 36.35%, as functional correctness (24.39% IFS) lags significantly behind visual fidelity (64.25% VFS). These results highlight critical limitations in current models' ability to reason about temporal dynamics and synthesize event-driven logic, establishing IWR-Bench as a challenging frontier for vision-language research. The benchmark and evaluation code will be made publicly available. Code is available at https://github.com/L-O-I/IWR-Bench.
PDF51September 30, 2025