Vers une meilleure métrique pour la génération texte-vidéo
Towards A Better Metric for Text-to-Video Generation
January 15, 2024
Auteurs: Jay Zhangjie Wu, Guian Fang, Haoning Wu, Xintao Wang, Yixiao Ge, Xiaodong Cun, David Junhao Zhang, Jia-Wei Liu, Yuchao Gu, Rui Zhao, Weisi Lin, Wynne Hsu, Ying Shan, Mike Zheng Shou
cs.AI
Résumé
Les modèles génératifs ont démontré une capacité remarquable à synthétiser des textes, des images et des vidéos de haute qualité. Pour la génération de vidéos, les modèles contemporains de texte-à-vidéo présentent des capacités impressionnantes, produisant des vidéos visuellement époustouflantes. Néanmoins, l'évaluation de telles vidéos pose des défis significatifs. Les recherches actuelles utilisent principalement des métriques automatisées telles que FVD, IS et CLIP Score. Cependant, ces métriques offrent une analyse incomplète, en particulier dans l'évaluation temporelle du contenu vidéo, ce qui les rend peu fiables pour indiquer la véritable qualité des vidéos. Par ailleurs, bien que les études utilisateurs aient le potentiel de refléter avec précision la perception humaine, elles sont entravées par leur nature chronophage et laborieuse, avec des résultats souvent entachés de biais subjectifs. Dans cet article, nous examinons les limites inhérentes aux métriques existantes et introduisons une nouvelle pipeline d'évaluation, le Text-to-Video Score (T2VScore). Cette métrique intègre deux critères pivots : (1) l'Alignement Texte-Vidéo, qui examine la fidélité de la vidéo à représenter la description textuelle donnée, et (2) la Qualité Vidéo, qui évalue le calibre global de production de la vidéo avec un mélange d'experts. De plus, pour évaluer les métriques proposées et faciliter leurs améliorations futures, nous présentons le dataset TVGE, collectant les jugements humains de 2 543 vidéos générées par texte-à-vidéo sur les deux critères. Les expériences sur le dataset TVGE démontrent la supériorité du T2VScore proposé en offrant une meilleure métrique pour la génération de texte-à-vidéo.
English
Generative models have demonstrated remarkable capability in synthesizing
high-quality text, images, and videos. For video generation, contemporary
text-to-video models exhibit impressive capabilities, crafting visually
stunning videos. Nonetheless, evaluating such videos poses significant
challenges. Current research predominantly employs automated metrics such as
FVD, IS, and CLIP Score. However, these metrics provide an incomplete analysis,
particularly in the temporal assessment of video content, thus rendering them
unreliable indicators of true video quality. Furthermore, while user studies
have the potential to reflect human perception accurately, they are hampered by
their time-intensive and laborious nature, with outcomes that are often tainted
by subjective bias. In this paper, we investigate the limitations inherent in
existing metrics and introduce a novel evaluation pipeline, the Text-to-Video
Score (T2VScore). This metric integrates two pivotal criteria: (1) Text-Video
Alignment, which scrutinizes the fidelity of the video in representing the
given text description, and (2) Video Quality, which evaluates the video's
overall production caliber with a mixture of experts. Moreover, to evaluate the
proposed metrics and facilitate future improvements on them, we present the
TVGE dataset, collecting human judgements of 2,543 text-to-video generated
videos on the two criteria. Experiments on the TVGE dataset demonstrate the
superiority of the proposed T2VScore on offering a better metric for
text-to-video generation.