ArtifactsBench: Cerrando la brecha visual-interactiva en la evaluación de generación de código con LLM

Resumen

Las capacidades generativas de los Modelos de Lenguaje de Gran Escala (LLMs) están expandiéndose rápidamente desde código estático hacia artefactos visuales dinámicos e interactivos. Este progreso se ve limitado por una brecha crítica en la evaluación: los benchmarks establecidos se centran en la corrección algorítmica y pasan por alto la fidelidad visual y la integridad interactiva que definen las experiencias de usuario modernas. Para cerrar esta brecha, presentamos ArtifactsBench, un nuevo benchmark y paradigma para la evaluación automatizada y multimodal de la generación de código visual. Nuestro framework renderiza programáticamente cada artefacto generado y captura su comportamiento dinámico mediante capturas de pantalla temporales. Esta evidencia visual, junto con el código fuente, es evaluada por un Modelo de Lenguaje Multimodal (MLLM)-como-Juez, guiado rigurosamente por una lista de verificación detallada y específica por tarea para garantizar una puntuación holística y reproducible. Construimos un nuevo benchmark con 1,825 tareas diversas y evaluamos más de 30 LLMs líderes. Nuestra evaluación automatizada alcanza un notable 94.4% de consistencia en el ranking con WebDev Arena, el estándar de oro para las preferencias humanas en desarrollo web, y más del 90% de concordancia por pares con expertos humanos. Esto establece a ArtifactsBench como el primer framework en automatizar de manera confiable la evaluación de la calidad percibida por humanos a gran escala. Nuestro análisis proporciona un mapa de alta resolución del estado del arte actual, revelando que los modelos generalistas a menudo superan a los específicos de dominio. Hemos liberado ArtifactsBench como código abierto, incluyendo el benchmark, el sistema de evaluación y los resultados de referencia en https://artifactsbenchmark.github.io/, para proporcionar a la comunidad una herramienta escalable y precisa que acelere el desarrollo de modelos generativos centrados en el usuario.

English

The generative capabilities of Large Language Models (LLMs) are rapidly expanding from static code to dynamic, interactive visual artifacts. This progress is bottlenecked by a critical evaluation gap: established benchmarks focus on algorithmic correctness and are blind to the visual fidelity and interactive integrity that define modern user experiences. To bridge this gap, we introduce ArtifactsBench, a new benchmark and paradigm for the automated, multimodal evaluation of visual code generation. Our framework programmatically renders each generated artifact and captures its dynamic behavior through temporal screenshots. This visual evidence, alongside the source code, is then assessed by a Multimodal LLM (MLLM)-as-Judge, which is rigorously guided by a fine-grained, per-task checklist to ensure holistic and reproducible scoring. We construct a new benchmark of 1,825 diverse tasks and evaluate over 30 leading LLMs. Our automated evaluation achieves a striking 94.4% ranking consistency with WebDev Arena, the gold-standard for human preference in web development, and over 90% pairwise agreement with human experts. This establishes ArtifactsBench as the first framework to reliably automate the assessment of human-perceived quality at scale. Our analysis provides a high-resolution map of the current SOTA, revealing that generalist models often outperform domain-specific ones. We open-source ArtifactsBench, including the benchmark, evaluation harness, and baseline results at https://artifactsbenchmark.github.io/, to provide the community with a scalable and accurate tool to accelerate the development of user-centric generative models.

ArtifactsBench: Cerrando la brecha visual-interactiva en la evaluación de generación de código con LLM

ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation

Resumen

Support