ChatPaper.aiChatPaper

Hacia una mejor métrica para la generación de texto a video

Towards A Better Metric for Text-to-Video Generation

January 15, 2024
Autores: Jay Zhangjie Wu, Guian Fang, Haoning Wu, Xintao Wang, Yixiao Ge, Xiaodong Cun, David Junhao Zhang, Jia-Wei Liu, Yuchao Gu, Rui Zhao, Weisi Lin, Wynne Hsu, Ying Shan, Mike Zheng Shou
cs.AI

Resumen

Los modelos generativos han demostrado una capacidad notable para sintetizar texto, imágenes y videos de alta calidad. En el ámbito de la generación de videos, los modelos contemporáneos de texto a video exhiben capacidades impresionantes, creando videos visualmente impactantes. Sin embargo, evaluar dichos videos plantea desafíos significativos. La investigación actual emplea predominantemente métricas automatizadas como FVD, IS y CLIP Score. No obstante, estas métricas ofrecen un análisis incompleto, especialmente en la evaluación temporal del contenido del video, lo que las convierte en indicadores poco confiables de la verdadera calidad del video. Además, aunque los estudios con usuarios tienen el potencial de reflejar con precisión la percepción humana, se ven obstaculizados por su naturaleza intensiva en tiempo y laboriosa, con resultados que a menudo están sesgados por la subjetividad. En este artículo, investigamos las limitaciones inherentes a las métricas existentes e introducimos una nueva pipeline de evaluación, el Text-to-Video Score (T2VScore). Esta métrica integra dos criterios fundamentales: (1) Alineación Texto-Video, que examina la fidelidad del video en representar la descripción textual dada, y (2) Calidad del Video, que evalúa el nivel general de producción del video mediante un panel de expertos. Además, para evaluar las métricas propuestas y facilitar futuras mejoras, presentamos el conjunto de datos TVGE, que recopila juicios humanos sobre 2,543 videos generados de texto a video en los dos criterios mencionados. Los experimentos en el conjunto de datos TVGE demuestran la superioridad del T2VScore propuesto al ofrecer una mejor métrica para la generación de texto a video.
English
Generative models have demonstrated remarkable capability in synthesizing high-quality text, images, and videos. For video generation, contemporary text-to-video models exhibit impressive capabilities, crafting visually stunning videos. Nonetheless, evaluating such videos poses significant challenges. Current research predominantly employs automated metrics such as FVD, IS, and CLIP Score. However, these metrics provide an incomplete analysis, particularly in the temporal assessment of video content, thus rendering them unreliable indicators of true video quality. Furthermore, while user studies have the potential to reflect human perception accurately, they are hampered by their time-intensive and laborious nature, with outcomes that are often tainted by subjective bias. In this paper, we investigate the limitations inherent in existing metrics and introduce a novel evaluation pipeline, the Text-to-Video Score (T2VScore). This metric integrates two pivotal criteria: (1) Text-Video Alignment, which scrutinizes the fidelity of the video in representing the given text description, and (2) Video Quality, which evaluates the video's overall production caliber with a mixture of experts. Moreover, to evaluate the proposed metrics and facilitate future improvements on them, we present the TVGE dataset, collecting human judgements of 2,543 text-to-video generated videos on the two criteria. Experiments on the TVGE dataset demonstrate the superiority of the proposed T2VScore on offering a better metric for text-to-video generation.
PDF166December 15, 2024