Hacia una mejor métrica para la generación de texto a video
Towards A Better Metric for Text-to-Video Generation
January 15, 2024
Autores: Jay Zhangjie Wu, Guian Fang, Haoning Wu, Xintao Wang, Yixiao Ge, Xiaodong Cun, David Junhao Zhang, Jia-Wei Liu, Yuchao Gu, Rui Zhao, Weisi Lin, Wynne Hsu, Ying Shan, Mike Zheng Shou
cs.AI
Resumen
Los modelos generativos han demostrado una capacidad notable para sintetizar texto, imágenes y videos de alta calidad. En el ámbito de la generación de videos, los modelos contemporáneos de texto a video exhiben capacidades impresionantes, creando videos visualmente impactantes. Sin embargo, evaluar dichos videos plantea desafíos significativos. La investigación actual emplea predominantemente métricas automatizadas como FVD, IS y CLIP Score. No obstante, estas métricas ofrecen un análisis incompleto, especialmente en la evaluación temporal del contenido del video, lo que las convierte en indicadores poco confiables de la verdadera calidad del video. Además, aunque los estudios con usuarios tienen el potencial de reflejar con precisión la percepción humana, se ven obstaculizados por su naturaleza intensiva en tiempo y laboriosa, con resultados que a menudo están sesgados por la subjetividad. En este artículo, investigamos las limitaciones inherentes a las métricas existentes e introducimos una nueva pipeline de evaluación, el Text-to-Video Score (T2VScore). Esta métrica integra dos criterios fundamentales: (1) Alineación Texto-Video, que examina la fidelidad del video en representar la descripción textual dada, y (2) Calidad del Video, que evalúa el nivel general de producción del video mediante un panel de expertos. Además, para evaluar las métricas propuestas y facilitar futuras mejoras, presentamos el conjunto de datos TVGE, que recopila juicios humanos sobre 2,543 videos generados de texto a video en los dos criterios mencionados. Los experimentos en el conjunto de datos TVGE demuestran la superioridad del T2VScore propuesto al ofrecer una mejor métrica para la generación de texto a video.
English
Generative models have demonstrated remarkable capability in synthesizing
high-quality text, images, and videos. For video generation, contemporary
text-to-video models exhibit impressive capabilities, crafting visually
stunning videos. Nonetheless, evaluating such videos poses significant
challenges. Current research predominantly employs automated metrics such as
FVD, IS, and CLIP Score. However, these metrics provide an incomplete analysis,
particularly in the temporal assessment of video content, thus rendering them
unreliable indicators of true video quality. Furthermore, while user studies
have the potential to reflect human perception accurately, they are hampered by
their time-intensive and laborious nature, with outcomes that are often tainted
by subjective bias. In this paper, we investigate the limitations inherent in
existing metrics and introduce a novel evaluation pipeline, the Text-to-Video
Score (T2VScore). This metric integrates two pivotal criteria: (1) Text-Video
Alignment, which scrutinizes the fidelity of the video in representing the
given text description, and (2) Video Quality, which evaluates the video's
overall production caliber with a mixture of experts. Moreover, to evaluate the
proposed metrics and facilitate future improvements on them, we present the
TVGE dataset, collecting human judgements of 2,543 text-to-video generated
videos on the two criteria. Experiments on the TVGE dataset demonstrate the
superiority of the proposed T2VScore on offering a better metric for
text-to-video generation.