ArtifactsBench: Colmare il Divario Visivo-Interattivo nella Valutazione della Generazione di Codice con LLM

Abstract

Le capacità generative dei Large Language Models (LLM) si stanno rapidamente espandendo da codice statico a manufatti visivi dinamici e interattivi. Questo progresso è ostacolato da un gap critico di valutazione: i benchmark consolidati si concentrano sulla correttezza algoritmica e sono ciechi rispetto alla fedeltà visiva e all'integrità interattiva che definiscono le esperienze utente moderne. Per colmare questa lacuna, introduciamo ArtifactsBench, un nuovo benchmark e paradigma per la valutazione automatizzata e multimodale della generazione di codice visivo. Il nostro framework rende programmaticamente ogni manufatto generato e ne cattura il comportamento dinamico attraverso screenshot temporali. Questa evidenza visiva, insieme al codice sorgente, viene poi valutata da un Multimodal LLM (MLLM)-as-Judge, rigorosamente guidato da una checklist dettagliata per task, per garantire una valutazione olistica e riproducibile. Costruiamo un nuovo benchmark di 1.825 task diversificati e valutiamo oltre 30 LLM leader. La nostra valutazione automatizzata raggiunge un impressionante 94,4% di coerenza di ranking con WebDev Arena, lo standard di riferimento per le preferenze umane nello sviluppo web, e oltre il 90% di accordo pairwise con esperti umani. Questo stabilisce ArtifactsBench come il primo framework in grado di automatizzare in modo affidabile la valutazione della qualità percepita dall'uomo su larga scala. La nostra analisi fornisce una mappa ad alta risoluzione dello stato dell'arte attuale, rivelando che i modelli generalisti spesso superano quelli specifici per dominio. Rendiamo open-source ArtifactsBench, includendo il benchmark, il sistema di valutazione e i risultati di base su https://artifactsbenchmark.github.io/, per fornire alla comunità uno strumento scalabile e accurato per accelerare lo sviluppo di modelli generativi centrati sull'utente.

English

The generative capabilities of Large Language Models (LLMs) are rapidly expanding from static code to dynamic, interactive visual artifacts. This progress is bottlenecked by a critical evaluation gap: established benchmarks focus on algorithmic correctness and are blind to the visual fidelity and interactive integrity that define modern user experiences. To bridge this gap, we introduce ArtifactsBench, a new benchmark and paradigm for the automated, multimodal evaluation of visual code generation. Our framework programmatically renders each generated artifact and captures its dynamic behavior through temporal screenshots. This visual evidence, alongside the source code, is then assessed by a Multimodal LLM (MLLM)-as-Judge, which is rigorously guided by a fine-grained, per-task checklist to ensure holistic and reproducible scoring. We construct a new benchmark of 1,825 diverse tasks and evaluate over 30 leading LLMs. Our automated evaluation achieves a striking 94.4% ranking consistency with WebDev Arena, the gold-standard for human preference in web development, and over 90% pairwise agreement with human experts. This establishes ArtifactsBench as the first framework to reliably automate the assessment of human-perceived quality at scale. Our analysis provides a high-resolution map of the current SOTA, revealing that generalist models often outperform domain-specific ones. We open-source ArtifactsBench, including the benchmark, evaluation harness, and baseline results at https://artifactsbenchmark.github.io/, to provide the community with a scalable and accurate tool to accelerate the development of user-centric generative models.

ArtifactsBench: Colmare il Divario Visivo-Interattivo nella Valutazione della Generazione di Codice con LLM

ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation

Abstract

Support