テキストから動画生成のためのより優れた評価指標に向けて
Towards A Better Metric for Text-to-Video Generation
January 15, 2024
著者: Jay Zhangjie Wu, Guian Fang, Haoning Wu, Xintao Wang, Yixiao Ge, Xiaodong Cun, David Junhao Zhang, Jia-Wei Liu, Yuchao Gu, Rui Zhao, Weisi Lin, Wynne Hsu, Ying Shan, Mike Zheng Shou
cs.AI
要旨
生成モデルは、高品質なテキスト、画像、動画の合成において顕著な能力を発揮してきました。動画生成においては、現代のテキストから動画への変換モデルが視覚的に素晴らしい動画を作成するという印象的な能力を示しています。しかしながら、そのような動画を評価することは大きな課題を伴います。現在の研究では、主にFVD、IS、CLIPスコアといった自動化されたメトリクスが使用されています。しかし、これらのメトリクスは不完全な分析を提供し、特に動画コンテンツの時間的評価においては、真の動画品質の信頼できる指標とはなり得ません。さらに、ユーザー調査は人間の知覚を正確に反映する可能性があるものの、時間がかかり労力を要する性質や、主観的なバイアスに汚染されがちな結果という問題を抱えています。本論文では、既存のメトリクスに内在する限界を調査し、新たな評価パイプラインであるText-to-Video Score(T2VScore)を紹介します。このメトリクスは、2つの重要な基準を統合しています:(1) テキストと動画の整合性(Text-Video Alignment)で、与えられたテキスト記述を動画がどれだけ忠実に表現しているかを精査し、(2) 動画品質(Video Quality)で、専門家の混合による動画の全体的な制作水準を評価します。さらに、提案されたメトリクスを評価し、それらの将来の改善を促進するために、TVGEデータセットを提示します。このデータセットは、2,543のテキストから動画への生成動画について、2つの基準に基づく人間の判断を収集しています。TVGEデータセットでの実験により、提案されたT2VScoreがテキストから動画への生成においてより優れたメトリクスを提供することを実証しています。
English
Generative models have demonstrated remarkable capability in synthesizing
high-quality text, images, and videos. For video generation, contemporary
text-to-video models exhibit impressive capabilities, crafting visually
stunning videos. Nonetheless, evaluating such videos poses significant
challenges. Current research predominantly employs automated metrics such as
FVD, IS, and CLIP Score. However, these metrics provide an incomplete analysis,
particularly in the temporal assessment of video content, thus rendering them
unreliable indicators of true video quality. Furthermore, while user studies
have the potential to reflect human perception accurately, they are hampered by
their time-intensive and laborious nature, with outcomes that are often tainted
by subjective bias. In this paper, we investigate the limitations inherent in
existing metrics and introduce a novel evaluation pipeline, the Text-to-Video
Score (T2VScore). This metric integrates two pivotal criteria: (1) Text-Video
Alignment, which scrutinizes the fidelity of the video in representing the
given text description, and (2) Video Quality, which evaluates the video's
overall production caliber with a mixture of experts. Moreover, to evaluate the
proposed metrics and facilitate future improvements on them, we present the
TVGE dataset, collecting human judgements of 2,543 text-to-video generated
videos on the two criteria. Experiments on the TVGE dataset demonstrate the
superiority of the proposed T2VScore on offering a better metric for
text-to-video generation.