ChatPaper.aiChatPaper

ArtifactsBench: LLMコード生成評価における視覚的インタラクティブギャップの解消

ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation

July 7, 2025
著者: Chenchen Zhang, Yuhang Li, Can Xu, Jiaheng Liu, Ao Liu, Shihui Hu, Dengpeng Wu, Guanhua Huang, Kejiao Li, Qi Yi, Ruibin Xiong, Haotian Zhu, Yuanxing Zhang, Yuhao Jiang, Yue Zhang, Zenan Xu, Bohui Zhai, Guoxiang He, Hebin Li, Jie Zhao, Le Zhang, Lingyun Tan, Pengyu Guo, Xianshu Pang, Yang Ruan, Zhifeng Zhang, Zhonghu Wang, Ziyan Xu, Zuopu Yin, Wiggin Zhou, Chayse Zhou, Fengzong Lian
cs.AI

要旨

大規模言語モデル(LLMs)の生成能力は、静的コードから動的でインタラクティブな視覚的アーティファクトへと急速に拡大しています。この進展は、重要な評価ギャップによってボトルネックとなっています:既存のベンチマークはアルゴリズムの正確性に焦点を当てており、現代のユーザー体験を定義する視覚的忠実度やインタラクティブな整合性を見落としています。このギャップを埋めるため、我々はArtifactsBenchを導入します。これは、視覚的コード生成の自動的かつマルチモーダルな評価のための新しいベンチマークとパラダイムです。我々のフレームワークは、生成された各アーティファクトをプログラム的にレンダリングし、その動的挙動を時間的なスクリーンショットを通じて捕捉します。この視覚的証拠とソースコードは、細かいタスクごとのチェックリストに厳密に導かれたマルチモーダルLLM(MLLM)-as-Judgeによって評価され、包括的かつ再現可能なスコアリングを保証します。我々は1,825の多様なタスクからなる新しいベンチマークを構築し、30以上の主要なLLMを評価しました。我々の自動評価は、ウェブ開発における人間の嗜好のゴールドスタンダードであるWebDev Arenaとの94.4%のランキング一貫性を達成し、人間の専門家との90%以上のペアワイズ一致を示しました。これにより、ArtifactsBenchは人間が知覚する品質の評価を大規模に自動化する初めてのフレームワークとして確立されました。我々の分析は、汎用モデルがしばしばドメイン固有のモデルを上回るという現在のSOTA(State of the Art)の高解像度マップを提供します。我々は、ベンチマーク、評価ハーネス、ベースライン結果を含むArtifactsBenchをオープンソース化し、コミュニティにスケーラブルで正確なツールを提供して、ユーザー中心の生成モデルの開発を加速します。詳細はhttps://artifactsbenchmark.github.io/をご覧ください。
English
The generative capabilities of Large Language Models (LLMs) are rapidly expanding from static code to dynamic, interactive visual artifacts. This progress is bottlenecked by a critical evaluation gap: established benchmarks focus on algorithmic correctness and are blind to the visual fidelity and interactive integrity that define modern user experiences. To bridge this gap, we introduce ArtifactsBench, a new benchmark and paradigm for the automated, multimodal evaluation of visual code generation. Our framework programmatically renders each generated artifact and captures its dynamic behavior through temporal screenshots. This visual evidence, alongside the source code, is then assessed by a Multimodal LLM (MLLM)-as-Judge, which is rigorously guided by a fine-grained, per-task checklist to ensure holistic and reproducible scoring. We construct a new benchmark of 1,825 diverse tasks and evaluate over 30 leading LLMs. Our automated evaluation achieves a striking 94.4% ranking consistency with WebDev Arena, the gold-standard for human preference in web development, and over 90% pairwise agreement with human experts. This establishes ArtifactsBench as the first framework to reliably automate the assessment of human-perceived quality at scale. Our analysis provides a high-resolution map of the current SOTA, revealing that generalist models often outperform domain-specific ones. We open-source ArtifactsBench, including the benchmark, evaluation harness, and baseline results at https://artifactsbenchmark.github.io/, to provide the community with a scalable and accurate tool to accelerate the development of user-centric generative models.
PDF71July 8, 2025