ArtifactsBench: Cerrando la brecha visual-interactiva en la evaluación de generación de código con LLM
ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation
July 7, 2025
Autores: Chenchen Zhang, Yuhang Li, Can Xu, Jiaheng Liu, Ao Liu, Shihui Hu, Dengpeng Wu, Guanhua Huang, Kejiao Li, Qi Yi, Ruibin Xiong, Haotian Zhu, Yuanxing Zhang, Yuhao Jiang, Yue Zhang, Zenan Xu, Bohui Zhai, Guoxiang He, Hebin Li, Jie Zhao, Le Zhang, Lingyun Tan, Pengyu Guo, Xianshu Pang, Yang Ruan, Zhifeng Zhang, Zhonghu Wang, Ziyan Xu, Zuopu Yin, Wiggin Zhou, Chayse Zhou, Fengzong Lian
cs.AI
Resumen
Las capacidades generativas de los Modelos de Lenguaje de Gran Escala (LLMs) están expandiéndose rápidamente desde código estático hacia artefactos visuales dinámicos e interactivos. Este progreso se ve limitado por una brecha crítica en la evaluación: los benchmarks establecidos se centran en la corrección algorítmica y pasan por alto la fidelidad visual y la integridad interactiva que definen las experiencias de usuario modernas. Para cerrar esta brecha, presentamos ArtifactsBench, un nuevo benchmark y paradigma para la evaluación automatizada y multimodal de la generación de código visual. Nuestro framework renderiza programáticamente cada artefacto generado y captura su comportamiento dinámico mediante capturas de pantalla temporales. Esta evidencia visual, junto con el código fuente, es evaluada por un Modelo de Lenguaje Multimodal (MLLM)-como-Juez, guiado rigurosamente por una lista de verificación detallada y específica por tarea para garantizar una puntuación holística y reproducible. Construimos un nuevo benchmark con 1,825 tareas diversas y evaluamos más de 30 LLMs líderes. Nuestra evaluación automatizada alcanza un notable 94.4% de consistencia en el ranking con WebDev Arena, el estándar de oro para las preferencias humanas en desarrollo web, y más del 90% de concordancia por pares con expertos humanos. Esto establece a ArtifactsBench como el primer framework en automatizar de manera confiable la evaluación de la calidad percibida por humanos a gran escala. Nuestro análisis proporciona un mapa de alta resolución del estado del arte actual, revelando que los modelos generalistas a menudo superan a los específicos de dominio. Hemos liberado ArtifactsBench como código abierto, incluyendo el benchmark, el sistema de evaluación y los resultados de referencia en https://artifactsbenchmark.github.io/, para proporcionar a la comunidad una herramienta escalable y precisa que acelere el desarrollo de modelos generativos centrados en el usuario.
English
The generative capabilities of Large Language Models (LLMs) are rapidly
expanding from static code to dynamic, interactive visual artifacts. This
progress is bottlenecked by a critical evaluation gap: established benchmarks
focus on algorithmic correctness and are blind to the visual fidelity and
interactive integrity that define modern user experiences. To bridge this gap,
we introduce ArtifactsBench, a new benchmark and paradigm for the automated,
multimodal evaluation of visual code generation. Our framework programmatically
renders each generated artifact and captures its dynamic behavior through
temporal screenshots. This visual evidence, alongside the source code, is then
assessed by a Multimodal LLM (MLLM)-as-Judge, which is rigorously guided by a
fine-grained, per-task checklist to ensure holistic and reproducible scoring.
We construct a new benchmark of 1,825 diverse tasks and evaluate over 30
leading LLMs. Our automated evaluation achieves a striking 94.4% ranking
consistency with WebDev Arena, the gold-standard for human preference in web
development, and over 90% pairwise agreement with human experts. This
establishes ArtifactsBench as the first framework to reliably automate the
assessment of human-perceived quality at scale. Our analysis provides a
high-resolution map of the current SOTA, revealing that generalist models often
outperform domain-specific ones. We open-source ArtifactsBench, including the
benchmark, evaluation harness, and baseline results at
https://artifactsbenchmark.github.io/, to provide the community with a scalable
and accurate tool to accelerate the development of user-centric generative
models.