IWR-Bench: ¿Pueden los LVLM reconstruir una página web interactiva a partir de un video de interacción del usuario?
IWR-Bench: Can LVLMs reconstruct interactive webpage from a user interaction video?
September 29, 2025
Autores: Yang Chen, Minghao Liu, Yufan Shen, Yunwen Li, Tianyuan Huang, Xinyu Fang, Tianyu Zheng, Wenxuan Huang, Cheng Yang, Daocheng Fu, Jianbiao Mei, Rong Wu, Licheng Wen, Xuemeng Yang, Song Mao, Qunshu Lin, Zhi Yu, Yongliang Shen, Yu Qiao, Botian Shi
cs.AI
Resumen
La tarea de convertir páginas web en código requiere que los modelos comprendan las representaciones visuales de las páginas web y generen el código correspondiente. Sin embargo, los puntos de referencia existentes se centran principalmente en tareas estáticas de captura de pantalla a código, pasando por alto las interacciones dinámicas fundamentales para las aplicaciones web del mundo real. Para abordar esta limitación, este artículo presenta IWR-Bench, un nuevo punto de referencia para evaluar las capacidades de los Modelos de Lenguaje y Visión de Gran Escala (LVLMs, por sus siglas en inglés) en la reconstrucción interactiva de páginas web a partir de videos. IWR-Bench consta de 113 tareas cuidadosamente seleccionadas de 100 sitios web reales, con 1,001 acciones y que presentan diversas complejidades de interacción (por ejemplo, juegos web), estilos visuales y dominios. Alineado con las prácticas estándar de desarrollo web, cada tarea incluye no solo videos de interacción del usuario, sino también todos los recursos estáticos rastreados (por ejemplo, imágenes, videos). Este punto de referencia evalúa a los modelos en dos desafíos fundamentales: el razonamiento multimodal integral para inferir la lógica de interacción a partir de videos y recursos, y la generación avanzada de código para traducir esta lógica en código funcional. Un marco de agente-como-juez con un sistema métrico integral evalúa automáticamente la corrección funcional y la fidelidad visual de las páginas web generadas. Experimentos extensos en 28 LVLMs revelan un desafío significativo: el mejor modelo alcanza una puntuación general de solo 36.35%, ya que la corrección funcional (24.39% IFS) se queda significativamente por detrás de la fidelidad visual (64.25% VFS). Estos resultados resaltan limitaciones críticas en la capacidad de los modelos actuales para razonar sobre dinámicas temporales y sintetizar lógica impulsada por eventos, estableciendo a IWR-Bench como una frontera desafiante para la investigación en visión y lenguaje. El punto de referencia y el código de evaluación estarán disponibles públicamente. El código está disponible en https://github.com/L-O-I/IWR-Bench.
English
The webpage-to-code task requires models to understand visual representations
of webpages and generate corresponding code. However, existing benchmarks
primarily focus on static screenshot-to-code tasks, thereby overlooking the
dynamic interactions fundamental to real-world web applications. To address
this limitation, this paper introduces IWR-Bench, a novel benchmark for
evaluating the capabilities of Large Vision-Language Models (LVLMs) in
interactive webpage reconstruction from video. IWR-Bench comprises 113
meticulously curated tasks from 100 real-world websites, with 1,001 actions and
featuring diverse interaction complexities (e.g., web games), visual styles,
and domains. Aligning with standard web development practices, each task
includes not only user interaction videos but also all crawled static assets
(e.g., images, videos). This benchmark evaluates models on two fundamental
challenges: comprehensive multi-modal reasoning to infer interaction logic from
video and assets, and advanced code generation to translate this logic into
functional code. An agent-as-a-judge framework with a comprehensive metric
system automatically assesses the functional correctness and visual fidelity of
generated webpages. Extensive experiments on 28 LVLMs reveal a significant
challenge: the best model achieves an overall score of only 36.35%, as
functional correctness (24.39% IFS) lags significantly behind visual fidelity
(64.25% VFS). These results highlight critical limitations in current models'
ability to reason about temporal dynamics and synthesize event-driven logic,
establishing IWR-Bench as a challenging frontier for vision-language research.
The benchmark and evaluation code will be made publicly available. Code is
available at https://github.com/L-O-I/IWR-Bench.