Verso una Metrica Migliore per la Generazione di Testo-Video
Towards A Better Metric for Text-to-Video Generation
January 15, 2024
Autori: Jay Zhangjie Wu, Guian Fang, Haoning Wu, Xintao Wang, Yixiao Ge, Xiaodong Cun, David Junhao Zhang, Jia-Wei Liu, Yuchao Gu, Rui Zhao, Weisi Lin, Wynne Hsu, Ying Shan, Mike Zheng Shou
cs.AI
Abstract
I modelli generativi hanno dimostrato una capacità straordinaria nella sintesi di testi, immagini e video di alta qualità. Per quanto riguarda la generazione di video, i modelli contemporanei di testo-a-video mostrano capacità impressionanti, creando video visivamente sorprendenti. Tuttavia, la valutazione di tali video presenta sfide significative. La ricerca attuale utilizza prevalentemente metriche automatizzate come FVD, IS e CLIP Score. Tuttavia, queste metriche forniscono un'analisi incompleta, in particolare nella valutazione temporale del contenuto video, rendendole indicatori inaffidabili della vera qualità del video. Inoltre, sebbene gli studi sugli utenti abbiano il potenziale di riflettere accuratamente la percezione umana, sono ostacolati dalla loro natura dispendiosa in termini di tempo e fatica, con risultati spesso influenzati da bias soggettivi. In questo articolo, esploriamo i limiti intrinseci delle metriche esistenti e introduciamo una nuova pipeline di valutazione, il Text-to-Video Score (T2VScore). Questa metrica integra due criteri fondamentali: (1) Allineamento Testo-Video, che esamina la fedeltà del video nel rappresentare la descrizione testuale fornita, e (2) Qualità del Video, che valuta il livello complessivo di produzione del video attraverso un panel di esperti. Inoltre, per valutare le metriche proposte e facilitare futuri miglioramenti, presentiamo il dataset TVGE, raccogliendo giudizi umani su 2.543 video generati da testo-a-video rispetto ai due criteri. Gli esperimenti sul dataset TVGE dimostrano la superiorità del T2VScore nel fornire una metrica migliore per la generazione di video da testo.
English
Generative models have demonstrated remarkable capability in synthesizing
high-quality text, images, and videos. For video generation, contemporary
text-to-video models exhibit impressive capabilities, crafting visually
stunning videos. Nonetheless, evaluating such videos poses significant
challenges. Current research predominantly employs automated metrics such as
FVD, IS, and CLIP Score. However, these metrics provide an incomplete analysis,
particularly in the temporal assessment of video content, thus rendering them
unreliable indicators of true video quality. Furthermore, while user studies
have the potential to reflect human perception accurately, they are hampered by
their time-intensive and laborious nature, with outcomes that are often tainted
by subjective bias. In this paper, we investigate the limitations inherent in
existing metrics and introduce a novel evaluation pipeline, the Text-to-Video
Score (T2VScore). This metric integrates two pivotal criteria: (1) Text-Video
Alignment, which scrutinizes the fidelity of the video in representing the
given text description, and (2) Video Quality, which evaluates the video's
overall production caliber with a mixture of experts. Moreover, to evaluate the
proposed metrics and facilitate future improvements on them, we present the
TVGE dataset, collecting human judgements of 2,543 text-to-video generated
videos on the two criteria. Experiments on the TVGE dataset demonstrate the
superiority of the proposed T2VScore on offering a better metric for
text-to-video generation.