ArtifactsBench: Преодоление визуально-интерактивного разрыва в оценке генерации кода с использованием крупных языковых моделей
ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation
July 7, 2025
Авторы: Chenchen Zhang, Yuhang Li, Can Xu, Jiaheng Liu, Ao Liu, Shihui Hu, Dengpeng Wu, Guanhua Huang, Kejiao Li, Qi Yi, Ruibin Xiong, Haotian Zhu, Yuanxing Zhang, Yuhao Jiang, Yue Zhang, Zenan Xu, Bohui Zhai, Guoxiang He, Hebin Li, Jie Zhao, Le Zhang, Lingyun Tan, Pengyu Guo, Xianshu Pang, Yang Ruan, Zhifeng Zhang, Zhonghu Wang, Ziyan Xu, Zuopu Yin, Wiggin Zhou, Chayse Zhou, Fengzong Lian
cs.AI
Аннотация
Генеративные возможности крупных языковых моделей (LLM) быстро расширяются от статического кода к динамичным, интерактивным визуальным артефактам. Этот прогресс ограничивается критическим пробелом в оценке: существующие бенчмарки сосредоточены на алгоритмической корректности и не учитывают визуальную точность и интерактивную целостность, которые определяют современные пользовательские интерфейсы. Чтобы устранить этот пробел, мы представляем ArtifactsBench — новый бенчмарк и парадигму для автоматизированной, мультимодальной оценки генерации визуального кода. Наша фреймворк программно визуализирует каждый сгенерированный артефакт и фиксирует его динамическое поведение с помощью временных скриншотов. Эти визуальные данные, наряду с исходным кодом, затем оцениваются мультимодальной LLM (MLLM)-as-Judge, которая строго руководствуется детализированным чек-листом для каждой задачи, чтобы обеспечить целостную и воспроизводимую оценку. Мы создаем новый бенчмарк из 1 825 разнообразных задач и оцениваем более 30 ведущих LLM. Наша автоматизированная оценка достигает впечатляющей 94,4% согласованности с WebDev Arena, золотым стандартом для человеческих предпочтений в веб-разработке, и более 90% попарного согласия с экспертами-людьми. Это делает ArtifactsBench первым фреймворком, который надежно автоматизирует оценку воспринимаемого человеком качества в масштабе. Наш анализ предоставляет детализированную карту текущего состояния SOTA, показывая, что универсальные модели часто превосходят специализированные. Мы открываем исходный код ArtifactsBench, включая бенчмарк, инструменты оценки и базовые результаты, на https://artifactsbenchmark.github.io/, чтобы предоставить сообществу масштабируемый и точный инструмент для ускорения разработки пользовательских генеративных моделей.
English
The generative capabilities of Large Language Models (LLMs) are rapidly
expanding from static code to dynamic, interactive visual artifacts. This
progress is bottlenecked by a critical evaluation gap: established benchmarks
focus on algorithmic correctness and are blind to the visual fidelity and
interactive integrity that define modern user experiences. To bridge this gap,
we introduce ArtifactsBench, a new benchmark and paradigm for the automated,
multimodal evaluation of visual code generation. Our framework programmatically
renders each generated artifact and captures its dynamic behavior through
temporal screenshots. This visual evidence, alongside the source code, is then
assessed by a Multimodal LLM (MLLM)-as-Judge, which is rigorously guided by a
fine-grained, per-task checklist to ensure holistic and reproducible scoring.
We construct a new benchmark of 1,825 diverse tasks and evaluate over 30
leading LLMs. Our automated evaluation achieves a striking 94.4% ranking
consistency with WebDev Arena, the gold-standard for human preference in web
development, and over 90% pairwise agreement with human experts. This
establishes ArtifactsBench as the first framework to reliably automate the
assessment of human-perceived quality at scale. Our analysis provides a
high-resolution map of the current SOTA, revealing that generalist models often
outperform domain-specific ones. We open-source ArtifactsBench, including the
benchmark, evaluation harness, and baseline results at
https://artifactsbenchmark.github.io/, to provide the community with a scalable
and accurate tool to accelerate the development of user-centric generative
models.