IWR-Bench: Kunnen LVLM's een interactieve webpagina reconstrueren vanuit een video van gebruikersinteracties?
IWR-Bench: Can LVLMs reconstruct interactive webpage from a user interaction video?
September 29, 2025
Auteurs: Yang Chen, Minghao Liu, Yufan Shen, Yunwen Li, Tianyuan Huang, Xinyu Fang, Tianyu Zheng, Wenxuan Huang, Cheng Yang, Daocheng Fu, Jianbiao Mei, Rong Wu, Licheng Wen, Xuemeng Yang, Song Mao, Qunshu Lin, Zhi Yu, Yongliang Shen, Yu Qiao, Botian Shi
cs.AI
Samenvatting
De webpagina-naar-code-taak vereist dat modellen visuele representaties van webpagina's begrijpen en de bijbehorende code genereren. Bestaande benchmarks richten zich echter voornamelijk op statische screenshot-naar-code-taken, waardoor de dynamische interacties die fundamenteel zijn voor real-world webapplicaties over het hoofd worden gezien. Om deze beperking aan te pakken, introduceert dit artikel IWR-Bench, een nieuwe benchmark voor het evalueren van de mogelijkheden van Large Vision-Language Models (LVLMs) bij het reconstrueren van interactieve webpagina's vanuit video. IWR-Bench bestaat uit 113 zorgvuldig samengestelde taken van 100 real-world websites, met 1.001 acties en diverse interactiecomplexiteiten (bijv. webgames), visuele stijlen en domeinen. In lijn met standaard webontwikkelingspraktijken bevat elke taak niet alleen gebruikersinteractievideo's, maar ook alle gecrawlde statische assets (bijv. afbeeldingen, video's). Deze benchmark evalueert modellen op twee fundamentele uitdagingen: uitgebreide multimodale redenering om interactielogica uit video en assets af te leiden, en geavanceerde codegeneratie om deze logica om te zetten in functionele code. Een agent-as-a-judge-framework met een uitgebreid metriekensysteem beoordeelt automatisch de functionele correctheid en visuele getrouwheid van gegenereerde webpagina's. Uitgebreide experimenten met 28 LVLMs onthullen een aanzienlijke uitdaging: het beste model behaalt een totaalscore van slechts 36,35%, waarbij functionele correctheid (24,39% IFS) aanzienlijk achterblijft bij visuele getrouwheid (64,25% VFS). Deze resultaten benadrukken kritieke beperkingen in het vermogen van huidige modellen om te redeneren over temporele dynamiek en event-driven logica te synthetiseren, waardoor IWR-Bench zich vestigt als een uitdagend onderzoeksgebied voor vision-language-onderzoek. De benchmark en evaluatiecode zullen publiekelijk beschikbaar worden gesteld. Code is beschikbaar op https://github.com/L-O-I/IWR-Bench.
English
The webpage-to-code task requires models to understand visual representations
of webpages and generate corresponding code. However, existing benchmarks
primarily focus on static screenshot-to-code tasks, thereby overlooking the
dynamic interactions fundamental to real-world web applications. To address
this limitation, this paper introduces IWR-Bench, a novel benchmark for
evaluating the capabilities of Large Vision-Language Models (LVLMs) in
interactive webpage reconstruction from video. IWR-Bench comprises 113
meticulously curated tasks from 100 real-world websites, with 1,001 actions and
featuring diverse interaction complexities (e.g., web games), visual styles,
and domains. Aligning with standard web development practices, each task
includes not only user interaction videos but also all crawled static assets
(e.g., images, videos). This benchmark evaluates models on two fundamental
challenges: comprehensive multi-modal reasoning to infer interaction logic from
video and assets, and advanced code generation to translate this logic into
functional code. An agent-as-a-judge framework with a comprehensive metric
system automatically assesses the functional correctness and visual fidelity of
generated webpages. Extensive experiments on 28 LVLMs reveal a significant
challenge: the best model achieves an overall score of only 36.35%, as
functional correctness (24.39% IFS) lags significantly behind visual fidelity
(64.25% VFS). These results highlight critical limitations in current models'
ability to reason about temporal dynamics and synthesize event-driven logic,
establishing IWR-Bench as a challenging frontier for vision-language research.
The benchmark and evaluation code will be made publicly available. Code is
available at https://github.com/L-O-I/IWR-Bench.