VBench++: ビデオ生成モデルのための包括的かつ多目的なベンチマークスイート
VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models
November 20, 2024
著者: Ziqi Huang, Fan Zhang, Xiaojie Xu, Yinan He, Jiashuo Yu, Ziyue Dong, Qianli Ma, Nattapol Chanpaisit, Chenyang Si, Yuming Jiang, Yaohui Wang, Xinyuan Chen, Ying-Cong Chen, Limin Wang, Dahua Lin, Yu Qiao, Ziwei Liu
cs.AI
要旨
ビデオ生成は大きな進歩を遂げていますが、これらのモデルを評価することは依然として課題です。ビデオ生成の包括的な評価ベンチマークは2つの理由から不可欠です。1) 既存のメトリクスが人間の認識と完全に一致していないこと、2) 理想的な評価システムはビデオ生成の将来の発展に関する洞察を提供すべきです。このために、私たちはVBenchを提案します。VBenchは、特定の、階層的で分解された次元に「ビデオ生成の品質」を分析し、各次元に合わせたプロンプトと評価方法を備えた包括的なベンチマークスイートです。VBenchにはいくつかの魅力的な特性があります。1) 包括的な次元:VBenchはビデオ生成における16の次元(例:主体の一貫性の欠如、動きの滑らかさ、時間的なちらつき、空間的な関係など)を含んでいます。微細なレベルの評価メトリクスは、個々のモデルの強みと弱みを明らかにします。2) 人間との整合性:私たちは、各評価次元について、人間の認識との整合性を検証するための人間の選好注釈のデータセットも提供しています。3) 有益な洞察:現在のモデルの能力をさまざまな評価次元とコンテンツタイプで調査します。また、ビデオと画像生成モデルの間のギャップも調査します。4) 多目的ベンチマーク:VBench++は、テキストからビデオへ、画像からビデオへの評価をサポートします。異なる画像からビデオ生成設定間で公平な評価を可能にする適応的アスペクト比を持つ高品質の画像スイートを導入します。技術的品質の評価に加えて、VBench++はビデオ生成モデルの信頼性も評価し、モデルのパフォーマンスのより包括的な視点を提供します。5) 完全なオープンソース化:VBench++を完全にオープンソース化し、ビデオ生成の分野を前進させるために、新しいビデオ生成モデルをリーダーボードに継続的に追加しています。
English
Video generation has witnessed significant advancements, yet evaluating these
models remains a challenge. A comprehensive evaluation benchmark for video
generation is indispensable for two reasons: 1) Existing metrics do not fully
align with human perceptions; 2) An ideal evaluation system should provide
insights to inform future developments of video generation. To this end, we
present VBench, a comprehensive benchmark suite that dissects "video generation
quality" into specific, hierarchical, and disentangled dimensions, each with
tailored prompts and evaluation methods. VBench has several appealing
properties: 1) Comprehensive Dimensions: VBench comprises 16 dimensions in
video generation (e.g., subject identity inconsistency, motion smoothness,
temporal flickering, and spatial relationship, etc). The evaluation metrics
with fine-grained levels reveal individual models' strengths and weaknesses. 2)
Human Alignment: We also provide a dataset of human preference annotations to
validate our benchmarks' alignment with human perception, for each evaluation
dimension respectively. 3) Valuable Insights: We look into current models'
ability across various evaluation dimensions, and various content types. We
also investigate the gaps between video and image generation models. 4)
Versatile Benchmarking: VBench++ supports evaluating text-to-video and
image-to-video. We introduce a high-quality Image Suite with an adaptive aspect
ratio to enable fair evaluations across different image-to-video generation
settings. Beyond assessing technical quality, VBench++ evaluates the
trustworthiness of video generative models, providing a more holistic view of
model performance. 5) Full Open-Sourcing: We fully open-source VBench++ and
continually add new video generation models to our leaderboard to drive forward
the field of video generation.Summary
AI-Generated Summary