ChatPaper.aiChatPaper

Naar een betere maatstaf voor tekst-naar-video-generatie

Towards A Better Metric for Text-to-Video Generation

January 15, 2024
Auteurs: Jay Zhangjie Wu, Guian Fang, Haoning Wu, Xintao Wang, Yixiao Ge, Xiaodong Cun, David Junhao Zhang, Jia-Wei Liu, Yuchao Gu, Rui Zhao, Weisi Lin, Wynne Hsu, Ying Shan, Mike Zheng Shou
cs.AI

Samenvatting

Generatieve modellen hebben een opmerkelijke vaardigheid getoond in het synthetiseren van hoogwaardige tekst, afbeeldingen en video's. Voor videogeneratie vertonen hedendaagse tekst-naar-video-modellen indrukwekkende mogelijkheden, waarbij ze visueel verbluffende video's creëren. Desalniettemin vormt het evalueren van dergelijke video's aanzienlijke uitdagingen. Huidig onderzoek maakt voornamelijk gebruik van geautomatiseerde metrieken zoals FVD, IS en CLIP Score. Deze metrieken bieden echter een onvolledige analyse, met name in de temporele beoordeling van video-inhoud, waardoor ze onbetrouwbare indicatoren zijn van de werkelijke videokwaliteit. Bovendien, hoewel gebruikersstudies het potentieel hebben om de menselijke perceptie nauwkeurig weer te geven, worden ze belemmerd door hun tijdrovende en arbeidsintensieve aard, waarbij de resultaten vaak worden beïnvloed door subjectieve vooroordelen. In dit artikel onderzoeken we de beperkingen die inherent zijn aan bestaande metrieken en introduceren we een nieuwe evaluatiepijplijn, de Text-to-Video Score (T2VScore). Deze metriek integreert twee cruciale criteria: (1) Tekst-Video Afstemming, die de nauwkeurigheid van de video in het weergeven van de gegeven tekstbeschrijving onderzoekt, en (2) Videokwaliteit, die de algehele productiekwaliteit van de video beoordeelt met een mix van experts. Bovendien presenteren we, om de voorgestelde metrieken te evalueren en toekomstige verbeteringen te vergemakkelijken, de TVGE-dataset, waarin menselijke beoordelingen van 2.543 tekst-naar-video gegenereerde video's op de twee criteria zijn verzameld. Experimenten op de TVGE-dataset tonen de superioriteit van de voorgestelde T2VScore aan in het bieden van een betere metriek voor tekst-naar-video generatie.
English
Generative models have demonstrated remarkable capability in synthesizing high-quality text, images, and videos. For video generation, contemporary text-to-video models exhibit impressive capabilities, crafting visually stunning videos. Nonetheless, evaluating such videos poses significant challenges. Current research predominantly employs automated metrics such as FVD, IS, and CLIP Score. However, these metrics provide an incomplete analysis, particularly in the temporal assessment of video content, thus rendering them unreliable indicators of true video quality. Furthermore, while user studies have the potential to reflect human perception accurately, they are hampered by their time-intensive and laborious nature, with outcomes that are often tainted by subjective bias. In this paper, we investigate the limitations inherent in existing metrics and introduce a novel evaluation pipeline, the Text-to-Video Score (T2VScore). This metric integrates two pivotal criteria: (1) Text-Video Alignment, which scrutinizes the fidelity of the video in representing the given text description, and (2) Video Quality, which evaluates the video's overall production caliber with a mixture of experts. Moreover, to evaluate the proposed metrics and facilitate future improvements on them, we present the TVGE dataset, collecting human judgements of 2,543 text-to-video generated videos on the two criteria. Experiments on the TVGE dataset demonstrate the superiority of the proposed T2VScore on offering a better metric for text-to-video generation.
PDF156December 15, 2024