IWR-Bench : Les modèles de vision et langage de grande échelle peuvent-ils reconstruire une page web interactive à partir d'une vidéo d'interaction utilisateur ?
IWR-Bench: Can LVLMs reconstruct interactive webpage from a user interaction video?
September 29, 2025
papers.authors: Yang Chen, Minghao Liu, Yufan Shen, Yunwen Li, Tianyuan Huang, Xinyu Fang, Tianyu Zheng, Wenxuan Huang, Cheng Yang, Daocheng Fu, Jianbiao Mei, Rong Wu, Licheng Wen, Xuemeng Yang, Song Mao, Qunshu Lin, Zhi Yu, Yongliang Shen, Yu Qiao, Botian Shi
cs.AI
papers.abstract
La tâche de conversion de page web en code nécessite que les modèles comprennent les représentations visuelles des pages web et génèrent le code correspondant. Cependant, les benchmarks existants se concentrent principalement sur des tâches statiques de conversion de captures d'écran en code, négligeant ainsi les interactions dynamiques fondamentales aux applications web réelles. Pour pallier cette limitation, cet article présente IWR-Bench, un nouveau benchmark conçu pour évaluer les capacités des grands modèles vision-langage (LVLMs) dans la reconstruction interactive de pages web à partir de vidéos. IWR-Bench comprend 113 tâches soigneusement sélectionnées provenant de 100 sites web réels, avec 1 001 actions et présentant des complexités d'interaction variées (par exemple, des jeux web), des styles visuels et des domaines divers. Conformément aux pratiques standard de développement web, chaque tâche inclut non seulement des vidéos d'interaction utilisateur, mais aussi tous les assets statiques crawlés (par exemple, images, vidéos). Ce benchmark évalue les modèles sur deux défis fondamentaux : le raisonnement multimodal complet pour déduire la logique d'interaction à partir de la vidéo et des assets, et la génération de code avancée pour traduire cette logique en code fonctionnel. Un cadre agent-comme-juge avec un système de métrique complet évalue automatiquement la correction fonctionnelle et la fidélité visuelle des pages web générées. Des expériences approfondies sur 28 LVLMs révèlent un défi significatif : le meilleur modèle atteint un score global de seulement 36,35 %, car la correction fonctionnelle (24,39 % IFS) est nettement en retard par rapport à la fidélité visuelle (64,25 % VFS). Ces résultats mettent en lumière des limitations critiques dans la capacité des modèles actuels à raisonner sur la dynamique temporelle et à synthétiser une logique pilotée par événements, établissant IWR-Bench comme une frontière difficile pour la recherche vision-langage. Le benchmark et le code d'évaluation seront rendus publics. Le code est disponible à l'adresse https://github.com/L-O-I/IWR-Bench.
English
The webpage-to-code task requires models to understand visual representations
of webpages and generate corresponding code. However, existing benchmarks
primarily focus on static screenshot-to-code tasks, thereby overlooking the
dynamic interactions fundamental to real-world web applications. To address
this limitation, this paper introduces IWR-Bench, a novel benchmark for
evaluating the capabilities of Large Vision-Language Models (LVLMs) in
interactive webpage reconstruction from video. IWR-Bench comprises 113
meticulously curated tasks from 100 real-world websites, with 1,001 actions and
featuring diverse interaction complexities (e.g., web games), visual styles,
and domains. Aligning with standard web development practices, each task
includes not only user interaction videos but also all crawled static assets
(e.g., images, videos). This benchmark evaluates models on two fundamental
challenges: comprehensive multi-modal reasoning to infer interaction logic from
video and assets, and advanced code generation to translate this logic into
functional code. An agent-as-a-judge framework with a comprehensive metric
system automatically assesses the functional correctness and visual fidelity of
generated webpages. Extensive experiments on 28 LVLMs reveal a significant
challenge: the best model achieves an overall score of only 36.35%, as
functional correctness (24.39% IFS) lags significantly behind visual fidelity
(64.25% VFS). These results highlight critical limitations in current models'
ability to reason about temporal dynamics and synthesize event-driven logic,
establishing IWR-Bench as a challenging frontier for vision-language research.
The benchmark and evaluation code will be made publicly available. Code is
available at https://github.com/L-O-I/IWR-Bench.