IWR-Bench: LVLMはユーザーインタラクション動画からインタラクティブなウェブページを再構築できるか?
IWR-Bench: Can LVLMs reconstruct interactive webpage from a user interaction video?
September 29, 2025
著者: Yang Chen, Minghao Liu, Yufan Shen, Yunwen Li, Tianyuan Huang, Xinyu Fang, Tianyu Zheng, Wenxuan Huang, Cheng Yang, Daocheng Fu, Jianbiao Mei, Rong Wu, Licheng Wen, Xuemeng Yang, Song Mao, Qunshu Lin, Zhi Yu, Yongliang Shen, Yu Qiao, Botian Shi
cs.AI
要旨
ウェブページからコードを生成するタスクでは、モデルがウェブページの視覚的表現を理解し、対応するコードを生成する必要があります。しかし、既存のベンチマークは主に静的なスクリーンショットからコードを生成するタスクに焦点を当てており、現実世界のウェブアプリケーションにおいて基本的な動的なインタラクションを見落としています。この制限に対処するため、本論文では、ビデオからインタラクティブなウェブページを再構築するための大規模視覚言語モデル(LVLM)の能力を評価する新しいベンチマークであるIWR-Benchを紹介します。IWR-Benchは、100の現実世界のウェブサイトから慎重に選ばれた113のタスクで構成され、1,001のアクションを含み、多様なインタラクションの複雑さ(例:ウェブゲーム)、視覚スタイル、ドメインを特徴としています。標準的なウェブ開発プラクティスに沿って、各タスクにはユーザーインタラクションのビデオだけでなく、クロールされたすべての静的アセット(例:画像、ビデオ)も含まれています。このベンチマークは、ビデオとアセットからインタラクションロジックを推論するための包括的なマルチモーダル推論と、このロジックを機能的なコードに変換するための高度なコード生成という2つの基本的な課題についてモデルを評価します。包括的なメトリックシステムを備えたエージェント・アズ・ア・ジャッジフレームワークは、生成されたウェブページの機能的正確性と視覚的忠実度を自動的に評価します。28のLVLMに対する広範な実験により、重要な課題が明らかになりました:最良のモデルでも全体スコアはわずか36.35%であり、機能的正確性(24.39% IFS)は視覚的忠実度(64.25% VFS)に大きく遅れをとっています。これらの結果は、現在のモデルが時間的ダイナミクスを推論し、イベント駆動型のロジックを合成する能力における重大な限界を強調し、IWR-Benchを視覚言語研究の挑戦的なフロンティアとして確立します。ベンチマークと評価コードは公開されます。コードはhttps://github.com/L-O-I/IWR-Benchで利用可能です。
English
The webpage-to-code task requires models to understand visual representations
of webpages and generate corresponding code. However, existing benchmarks
primarily focus on static screenshot-to-code tasks, thereby overlooking the
dynamic interactions fundamental to real-world web applications. To address
this limitation, this paper introduces IWR-Bench, a novel benchmark for
evaluating the capabilities of Large Vision-Language Models (LVLMs) in
interactive webpage reconstruction from video. IWR-Bench comprises 113
meticulously curated tasks from 100 real-world websites, with 1,001 actions and
featuring diverse interaction complexities (e.g., web games), visual styles,
and domains. Aligning with standard web development practices, each task
includes not only user interaction videos but also all crawled static assets
(e.g., images, videos). This benchmark evaluates models on two fundamental
challenges: comprehensive multi-modal reasoning to infer interaction logic from
video and assets, and advanced code generation to translate this logic into
functional code. An agent-as-a-judge framework with a comprehensive metric
system automatically assesses the functional correctness and visual fidelity of
generated webpages. Extensive experiments on 28 LVLMs reveal a significant
challenge: the best model achieves an overall score of only 36.35%, as
functional correctness (24.39% IFS) lags significantly behind visual fidelity
(64.25% VFS). These results highlight critical limitations in current models'
ability to reason about temporal dynamics and synthesize event-driven logic,
establishing IWR-Bench as a challenging frontier for vision-language research.
The benchmark and evaluation code will be made publicly available. Code is
available at https://github.com/L-O-I/IWR-Bench.