Auf dem Weg zu einer besseren Metrik für die Text-zu-Video-Generierung
Towards A Better Metric for Text-to-Video Generation
January 15, 2024
Autoren: Jay Zhangjie Wu, Guian Fang, Haoning Wu, Xintao Wang, Yixiao Ge, Xiaodong Cun, David Junhao Zhang, Jia-Wei Liu, Yuchao Gu, Rui Zhao, Weisi Lin, Wynne Hsu, Ying Shan, Mike Zheng Shou
cs.AI
Zusammenfassung
Generative Modelle haben eine bemerkenswerte Fähigkeit bei der Synthese von hochwertigen Texten, Bildern und Videos gezeigt. Für die Videogenerierung zeigen zeitgenössische Text-zu-Video-Modelle beeindruckende Fähigkeiten, indem sie visuell beeindruckende Videos erstellen. Dennoch stellt die Bewertung solcher Videos erhebliche Herausforderungen dar. Die aktuelle Forschung verwendet überwiegend automatisierte Metriken wie FVD, IS und CLIP Score. Diese Metriken bieten jedoch eine unvollständige Analyse, insbesondere in der zeitlichen Bewertung von Videoinhalten, und sind daher unzuverlässige Indikatoren für die tatsächliche Videoqualität. Darüber hinaus können Benutzerstudien zwar das menschliche Wahrnehmungsvermögen genau widerspiegeln, sie werden jedoch durch ihren zeitaufwändigen und mühsamen Charakter behindert, wobei die Ergebnisse oft von subjektiven Verzerrungen beeinträchtigt sind. In diesem Artikel untersuchen wir die Grenzen der bestehenden Metriken und führen eine neuartige Bewertungspipeline ein, den Text-to-Video Score (T2VScore). Diese Metrik integriert zwei entscheidende Kriterien: (1) Text-Video-Ausrichtung, die die Treue des Videos bei der Darstellung der gegebenen Textbeschreibung überprüft, und (2) Videoqualität, die die Gesamtproduktionsqualität des Videos mit einem Expertengremium bewertet. Darüber hinaus stellen wir den TVGE-Datensatz vor, um die vorgeschlagenen Metriken zu bewerten und zukünftige Verbesserungen zu erleichtern. Dieser Datensatz sammelt menschliche Bewertungen von 2.543 Text-zu-Video-generierten Videos basierend auf den beiden Kriterien. Experimente mit dem TVGE-Datensatz demonstrieren die Überlegenheit des vorgeschlagenen T2VScores bei der Bereitstellung einer besseren Metrik für die Text-zu-Video-Generierung.
English
Generative models have demonstrated remarkable capability in synthesizing
high-quality text, images, and videos. For video generation, contemporary
text-to-video models exhibit impressive capabilities, crafting visually
stunning videos. Nonetheless, evaluating such videos poses significant
challenges. Current research predominantly employs automated metrics such as
FVD, IS, and CLIP Score. However, these metrics provide an incomplete analysis,
particularly in the temporal assessment of video content, thus rendering them
unreliable indicators of true video quality. Furthermore, while user studies
have the potential to reflect human perception accurately, they are hampered by
their time-intensive and laborious nature, with outcomes that are often tainted
by subjective bias. In this paper, we investigate the limitations inherent in
existing metrics and introduce a novel evaluation pipeline, the Text-to-Video
Score (T2VScore). This metric integrates two pivotal criteria: (1) Text-Video
Alignment, which scrutinizes the fidelity of the video in representing the
given text description, and (2) Video Quality, which evaluates the video's
overall production caliber with a mixture of experts. Moreover, to evaluate the
proposed metrics and facilitate future improvements on them, we present the
TVGE dataset, collecting human judgements of 2,543 text-to-video generated
videos on the two criteria. Experiments on the TVGE dataset demonstrate the
superiority of the proposed T2VScore on offering a better metric for
text-to-video generation.