ChatPaper.aiChatPaper

Auf dem Weg zu einer besseren Metrik für die Text-zu-Video-Generierung

Towards A Better Metric for Text-to-Video Generation

January 15, 2024
Autoren: Jay Zhangjie Wu, Guian Fang, Haoning Wu, Xintao Wang, Yixiao Ge, Xiaodong Cun, David Junhao Zhang, Jia-Wei Liu, Yuchao Gu, Rui Zhao, Weisi Lin, Wynne Hsu, Ying Shan, Mike Zheng Shou
cs.AI

Zusammenfassung

Generative Modelle haben eine bemerkenswerte Fähigkeit bei der Synthese von hochwertigen Texten, Bildern und Videos gezeigt. Für die Videogenerierung zeigen zeitgenössische Text-zu-Video-Modelle beeindruckende Fähigkeiten, indem sie visuell beeindruckende Videos erstellen. Dennoch stellt die Bewertung solcher Videos erhebliche Herausforderungen dar. Die aktuelle Forschung verwendet überwiegend automatisierte Metriken wie FVD, IS und CLIP Score. Diese Metriken bieten jedoch eine unvollständige Analyse, insbesondere in der zeitlichen Bewertung von Videoinhalten, und sind daher unzuverlässige Indikatoren für die tatsächliche Videoqualität. Darüber hinaus können Benutzerstudien zwar das menschliche Wahrnehmungsvermögen genau widerspiegeln, sie werden jedoch durch ihren zeitaufwändigen und mühsamen Charakter behindert, wobei die Ergebnisse oft von subjektiven Verzerrungen beeinträchtigt sind. In diesem Artikel untersuchen wir die Grenzen der bestehenden Metriken und führen eine neuartige Bewertungspipeline ein, den Text-to-Video Score (T2VScore). Diese Metrik integriert zwei entscheidende Kriterien: (1) Text-Video-Ausrichtung, die die Treue des Videos bei der Darstellung der gegebenen Textbeschreibung überprüft, und (2) Videoqualität, die die Gesamtproduktionsqualität des Videos mit einem Expertengremium bewertet. Darüber hinaus stellen wir den TVGE-Datensatz vor, um die vorgeschlagenen Metriken zu bewerten und zukünftige Verbesserungen zu erleichtern. Dieser Datensatz sammelt menschliche Bewertungen von 2.543 Text-zu-Video-generierten Videos basierend auf den beiden Kriterien. Experimente mit dem TVGE-Datensatz demonstrieren die Überlegenheit des vorgeschlagenen T2VScores bei der Bereitstellung einer besseren Metrik für die Text-zu-Video-Generierung.
English
Generative models have demonstrated remarkable capability in synthesizing high-quality text, images, and videos. For video generation, contemporary text-to-video models exhibit impressive capabilities, crafting visually stunning videos. Nonetheless, evaluating such videos poses significant challenges. Current research predominantly employs automated metrics such as FVD, IS, and CLIP Score. However, these metrics provide an incomplete analysis, particularly in the temporal assessment of video content, thus rendering them unreliable indicators of true video quality. Furthermore, while user studies have the potential to reflect human perception accurately, they are hampered by their time-intensive and laborious nature, with outcomes that are often tainted by subjective bias. In this paper, we investigate the limitations inherent in existing metrics and introduce a novel evaluation pipeline, the Text-to-Video Score (T2VScore). This metric integrates two pivotal criteria: (1) Text-Video Alignment, which scrutinizes the fidelity of the video in representing the given text description, and (2) Video Quality, which evaluates the video's overall production caliber with a mixture of experts. Moreover, to evaluate the proposed metrics and facilitate future improvements on them, we present the TVGE dataset, collecting human judgements of 2,543 text-to-video generated videos on the two criteria. Experiments on the TVGE dataset demonstrate the superiority of the proposed T2VScore on offering a better metric for text-to-video generation.
PDF166December 15, 2024