IWR-Bench: Os LVLMs conseguem reconstruir uma página web interativa a partir de um vídeo de interação do usuário?
IWR-Bench: Can LVLMs reconstruct interactive webpage from a user interaction video?
September 29, 2025
Autores: Yang Chen, Minghao Liu, Yufan Shen, Yunwen Li, Tianyuan Huang, Xinyu Fang, Tianyu Zheng, Wenxuan Huang, Cheng Yang, Daocheng Fu, Jianbiao Mei, Rong Wu, Licheng Wen, Xuemeng Yang, Song Mao, Qunshu Lin, Zhi Yu, Yongliang Shen, Yu Qiao, Botian Shi
cs.AI
Resumo
A tarefa de conversão de página web para código exige que os modelos compreendam representações visuais de páginas web e gerem o código correspondente. No entanto, os benchmarks existentes focam principalmente em tarefas estáticas de captura de tela para código, negligenciando assim as interações dinâmicas fundamentais para aplicações web do mundo real. Para abordar essa limitação, este artigo introduz o IWR-Bench, um novo benchmark para avaliar as capacidades de Modelos de Linguagem e Visão de Grande Escala (LVLMs) na reconstrução interativa de páginas web a partir de vídeo. O IWR-Bench compreende 113 tarefas meticulosamente curadas de 100 sites reais, com 1.001 ações e apresentando diversas complexidades de interação (por exemplo, jogos web), estilos visuais e domínios. Alinhado com as práticas padrão de desenvolvimento web, cada tarefa inclui não apenas vídeos de interação do usuário, mas também todos os recursos estáticos capturados (por exemplo, imagens, vídeos). Este benchmark avalia os modelos em dois desafios fundamentais: raciocínio multimodal abrangente para inferir a lógica de interação a partir de vídeo e recursos, e geração avançada de código para traduzir essa lógica em código funcional. Um framework de agente-como-juiz com um sistema abrangente de métricas avalia automaticamente a correção funcional e a fidelidade visual das páginas web geradas. Experimentos extensivos em 28 LVLMs revelam um desafio significativo: o melhor modelo alcança uma pontuação geral de apenas 36,35%, já que a correção funcional (24,39% IFS) fica significativamente atrás da fidelidade visual (64,25% VFS). Esses resultados destacam limitações críticas na capacidade dos modelos atuais de raciocinar sobre dinâmicas temporais e sintetizar lógica orientada a eventos, estabelecendo o IWR-Bench como uma fronteira desafiadora para a pesquisa em linguagem e visão. O benchmark e o código de avaliação serão disponibilizados publicamente. O código está disponível em https://github.com/L-O-I/IWR-Bench.
English
The webpage-to-code task requires models to understand visual representations
of webpages and generate corresponding code. However, existing benchmarks
primarily focus on static screenshot-to-code tasks, thereby overlooking the
dynamic interactions fundamental to real-world web applications. To address
this limitation, this paper introduces IWR-Bench, a novel benchmark for
evaluating the capabilities of Large Vision-Language Models (LVLMs) in
interactive webpage reconstruction from video. IWR-Bench comprises 113
meticulously curated tasks from 100 real-world websites, with 1,001 actions and
featuring diverse interaction complexities (e.g., web games), visual styles,
and domains. Aligning with standard web development practices, each task
includes not only user interaction videos but also all crawled static assets
(e.g., images, videos). This benchmark evaluates models on two fundamental
challenges: comprehensive multi-modal reasoning to infer interaction logic from
video and assets, and advanced code generation to translate this logic into
functional code. An agent-as-a-judge framework with a comprehensive metric
system automatically assesses the functional correctness and visual fidelity of
generated webpages. Extensive experiments on 28 LVLMs reveal a significant
challenge: the best model achieves an overall score of only 36.35%, as
functional correctness (24.39% IFS) lags significantly behind visual fidelity
(64.25% VFS). These results highlight critical limitations in current models'
ability to reason about temporal dynamics and synthesize event-driven logic,
establishing IWR-Bench as a challenging frontier for vision-language research.
The benchmark and evaluation code will be made publicly available. Code is
available at https://github.com/L-O-I/IWR-Bench.