ChatPaper.aiChatPaper

Vers une meilleure métrique pour la génération texte-vidéo

Towards A Better Metric for Text-to-Video Generation

January 15, 2024
Auteurs: Jay Zhangjie Wu, Guian Fang, Haoning Wu, Xintao Wang, Yixiao Ge, Xiaodong Cun, David Junhao Zhang, Jia-Wei Liu, Yuchao Gu, Rui Zhao, Weisi Lin, Wynne Hsu, Ying Shan, Mike Zheng Shou
cs.AI

Résumé

Les modèles génératifs ont démontré une capacité remarquable à synthétiser des textes, des images et des vidéos de haute qualité. Pour la génération de vidéos, les modèles contemporains de texte-à-vidéo présentent des capacités impressionnantes, produisant des vidéos visuellement époustouflantes. Néanmoins, l'évaluation de telles vidéos pose des défis significatifs. Les recherches actuelles utilisent principalement des métriques automatisées telles que FVD, IS et CLIP Score. Cependant, ces métriques offrent une analyse incomplète, en particulier dans l'évaluation temporelle du contenu vidéo, ce qui les rend peu fiables pour indiquer la véritable qualité des vidéos. Par ailleurs, bien que les études utilisateurs aient le potentiel de refléter avec précision la perception humaine, elles sont entravées par leur nature chronophage et laborieuse, avec des résultats souvent entachés de biais subjectifs. Dans cet article, nous examinons les limites inhérentes aux métriques existantes et introduisons une nouvelle pipeline d'évaluation, le Text-to-Video Score (T2VScore). Cette métrique intègre deux critères pivots : (1) l'Alignement Texte-Vidéo, qui examine la fidélité de la vidéo à représenter la description textuelle donnée, et (2) la Qualité Vidéo, qui évalue le calibre global de production de la vidéo avec un mélange d'experts. De plus, pour évaluer les métriques proposées et faciliter leurs améliorations futures, nous présentons le dataset TVGE, collectant les jugements humains de 2 543 vidéos générées par texte-à-vidéo sur les deux critères. Les expériences sur le dataset TVGE démontrent la supériorité du T2VScore proposé en offrant une meilleure métrique pour la génération de texte-à-vidéo.
English
Generative models have demonstrated remarkable capability in synthesizing high-quality text, images, and videos. For video generation, contemporary text-to-video models exhibit impressive capabilities, crafting visually stunning videos. Nonetheless, evaluating such videos poses significant challenges. Current research predominantly employs automated metrics such as FVD, IS, and CLIP Score. However, these metrics provide an incomplete analysis, particularly in the temporal assessment of video content, thus rendering them unreliable indicators of true video quality. Furthermore, while user studies have the potential to reflect human perception accurately, they are hampered by their time-intensive and laborious nature, with outcomes that are often tainted by subjective bias. In this paper, we investigate the limitations inherent in existing metrics and introduce a novel evaluation pipeline, the Text-to-Video Score (T2VScore). This metric integrates two pivotal criteria: (1) Text-Video Alignment, which scrutinizes the fidelity of the video in representing the given text description, and (2) Video Quality, which evaluates the video's overall production caliber with a mixture of experts. Moreover, to evaluate the proposed metrics and facilitate future improvements on them, we present the TVGE dataset, collecting human judgements of 2,543 text-to-video generated videos on the two criteria. Experiments on the TVGE dataset demonstrate the superiority of the proposed T2VScore on offering a better metric for text-to-video generation.
PDF166December 15, 2024