ArtifactsBench: LLM 코드 생성 평가에서 시각적-상호작용 간극 해소
ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation
July 7, 2025
저자: Chenchen Zhang, Yuhang Li, Can Xu, Jiaheng Liu, Ao Liu, Shihui Hu, Dengpeng Wu, Guanhua Huang, Kejiao Li, Qi Yi, Ruibin Xiong, Haotian Zhu, Yuanxing Zhang, Yuhao Jiang, Yue Zhang, Zenan Xu, Bohui Zhai, Guoxiang He, Hebin Li, Jie Zhao, Le Zhang, Lingyun Tan, Pengyu Guo, Xianshu Pang, Yang Ruan, Zhifeng Zhang, Zhonghu Wang, Ziyan Xu, Zuopu Yin, Wiggin Zhou, Chayse Zhou, Fengzong Lian
cs.AI
초록
대규모 언어 모델(LLMs)의 생성 능력은 정적 코드에서 동적이고 상호작용 가능한 시각적 아티팩트로 빠르게 확장되고 있습니다. 이러한 진전은 중요한 평가 격차에 의해 병목 현상을 겪고 있습니다: 기존 벤치마크는 알고리즘적 정확성에 초점을 맞추고 있으며, 현대 사용자 경험을 정의하는 시각적 충실도와 상호작용 무결성을 간과하고 있습니다. 이 격차를 해소하기 위해, 우리는 시각적 코드 생성을 위한 자동화된 다중 모드 평가를 위한 새로운 벤치마크 및 패러다임인 ArtifactsBench를 소개합니다. 우리의 프레임워크는 생성된 각 아티팩트를 프로그래밍 방식으로 렌더링하고 시간적 스크린샷을 통해 동적 행동을 포착합니다. 이 시각적 증거는 소스 코드와 함께 다중 모드 LLM(MLLM)-as-Judge에 의해 평가되며, 이는 전체적이고 재현 가능한 점수를 보장하기 위해 세분화된 작업별 체크리스트에 의해 엄격하게 안내됩니다. 우리는 1,825개의 다양한 작업으로 구성된 새로운 벤치마크를 구축하고 30개 이상의 주요 LLM을 평가합니다. 우리의 자동화된 평가는 웹 개발에서 인간 선호도의 금본위제인 WebDev Arena와 94.4%의 놀라운 순위 일관성을 달성했으며, 인간 전문가와 90% 이상의 쌍별 일치를 보였습니다. 이는 ArtifactsBench를 인간이 인지한 품질의 대규모 평가를 신뢰할 수 있게 자동화한 첫 번째 프레임워크로 확립합니다. 우리의 분석은 현재 SOTA(State-of-the-Art)의 고해상도 지도를 제공하며, 일반 모델이 종종 도메인 특화 모델을 능가한다는 사실을 밝혀냅니다. 우리는 ArtifactsBench를 오픈소스로 공개하며, 벤치마크, 평가 도구 및 기준 결과를 https://artifactsbenchmark.github.io/에서 제공하여 커뮤니티에 사용자 중심 생성 모델 개발을 가속화할 수 있는 확장 가능하고 정확한 도구를 제공합니다.
English
The generative capabilities of Large Language Models (LLMs) are rapidly
expanding from static code to dynamic, interactive visual artifacts. This
progress is bottlenecked by a critical evaluation gap: established benchmarks
focus on algorithmic correctness and are blind to the visual fidelity and
interactive integrity that define modern user experiences. To bridge this gap,
we introduce ArtifactsBench, a new benchmark and paradigm for the automated,
multimodal evaluation of visual code generation. Our framework programmatically
renders each generated artifact and captures its dynamic behavior through
temporal screenshots. This visual evidence, alongside the source code, is then
assessed by a Multimodal LLM (MLLM)-as-Judge, which is rigorously guided by a
fine-grained, per-task checklist to ensure holistic and reproducible scoring.
We construct a new benchmark of 1,825 diverse tasks and evaluate over 30
leading LLMs. Our automated evaluation achieves a striking 94.4% ranking
consistency with WebDev Arena, the gold-standard for human preference in web
development, and over 90% pairwise agreement with human experts. This
establishes ArtifactsBench as the first framework to reliably automate the
assessment of human-perceived quality at scale. Our analysis provides a
high-resolution map of the current SOTA, revealing that generalist models often
outperform domain-specific ones. We open-source ArtifactsBench, including the
benchmark, evaluation harness, and baseline results at
https://artifactsbenchmark.github.io/, to provide the community with a scalable
and accurate tool to accelerate the development of user-centric generative
models.