T2V-CompBench:構成可能なテキストからビデオ生成のための包括的ベンチマーク
T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation
July 19, 2024
著者: Kaiyue Sun, Kaiyi Huang, Xian Liu, Yue Wu, Zihan Xu, Zhenguo Li, Xihui Liu
cs.AI
要旨
テキストからビデオ(T2V)生成モデルは大きく進歩しているものの、異なるオブジェクト、属性、アクション、モーションをビデオに構成する能力はまだ十分に検証されていません。従来のテキストからビデオのベンチマークも、この重要な評価能力を軽視してきました。本研究では、構成可能なテキストからビデオ生成に関する初の体系的な研究を行います。私たちは、構成可能なテキストからビデオ生成に特化した初のベンチマークであるT2V-CompBenchを提案します。T2V-CompBenchは、一貫した属性のバインド、動的な属性のバインド、空間的関係、モーションのバインド、アクションのバインド、オブジェクト間の相互作用、生成的な数値能力など、構成可能性の多様な側面を網羅しています。さらに、MLLMベースの指標、検出ベースの指標、追跡ベースの指標を慎重に設計し、700のテキストプロンプトを用いた7つの提案カテゴリにおける構成可能なテキストからビデオ生成の品質をより適切に反映できるようにしました。提案された指標の有効性は、人間による評価との相関によって検証されています。また、様々なテキストからビデオ生成モデルをベンチマークし、異なるモデルや異なる構成カテゴリにわたる詳細な分析を行いました。その結果、構成可能なテキストからビデオ生成は現在のモデルにとって非常に困難であることがわかりました。私たちの試みが、この方向性における将来の研究に光を当てることを願っています。
English
Text-to-video (T2V) generation models have advanced significantly, yet their
ability to compose different objects, attributes, actions, and motions into a
video remains unexplored. Previous text-to-video benchmarks also neglect this
important ability for evaluation. In this work, we conduct the first systematic
study on compositional text-to-video generation. We propose T2V-CompBench, the
first benchmark tailored for compositional text-to-video generation.
T2V-CompBench encompasses diverse aspects of compositionality, including
consistent attribute binding, dynamic attribute binding, spatial relationships,
motion binding, action binding, object interactions, and generative numeracy.
We further carefully design evaluation metrics of MLLM-based metrics,
detection-based metrics, and tracking-based metrics, which can better reflect
the compositional text-to-video generation quality of seven proposed categories
with 700 text prompts. The effectiveness of the proposed metrics is verified by
correlation with human evaluations. We also benchmark various text-to-video
generative models and conduct in-depth analysis across different models and
different compositional categories. We find that compositional text-to-video
generation is highly challenging for current models, and we hope that our
attempt will shed light on future research in this direction.Summary
AI-Generated Summary