Em Busca de Uma Métrica Melhor para Geração de Texto para Vídeo
Towards A Better Metric for Text-to-Video Generation
January 15, 2024
Autores: Jay Zhangjie Wu, Guian Fang, Haoning Wu, Xintao Wang, Yixiao Ge, Xiaodong Cun, David Junhao Zhang, Jia-Wei Liu, Yuchao Gu, Rui Zhao, Weisi Lin, Wynne Hsu, Ying Shan, Mike Zheng Shou
cs.AI
Resumo
Modelos generativos têm demonstrado uma capacidade notável na síntese de texto, imagens e vídeos de alta qualidade. Para a geração de vídeos, os modelos contemporâneos de texto-para-vídeo exibem habilidades impressionantes, criando vídeos visualmente deslumbrantes. No entanto, a avaliação desses vídeos apresenta desafios significativos. A pesquisa atual emprega predominantemente métricas automatizadas, como FVD, IS e CLIP Score. Contudo, essas métricas fornecem uma análise incompleta, particularmente na avaliação temporal do conteúdo do vídeo, tornando-as indicadores pouco confiáveis da verdadeira qualidade do vídeo. Além disso, embora estudos com usuários tenham o potencial de refletir com precisão a percepção humana, eles são prejudicados por sua natureza demorada e trabalhosa, com resultados frequentemente contaminados por viés subjetivo. Neste artigo, investigamos as limitações inerentes às métricas existentes e introduzimos um novo pipeline de avaliação, o Text-to-Video Score (T2VScore). Essa métrica integra dois critérios fundamentais: (1) Alinhamento Texto-Vídeo, que examina a fidelidade do vídeo em representar a descrição textual fornecida, e (2) Qualidade do Vídeo, que avalia o calibre geral de produção do vídeo com uma mistura de especialistas. Além disso, para avaliar as métricas propostas e facilitar melhorias futuras, apresentamos o conjunto de dados TVGE, coletando julgamentos humanos de 2.543 vídeos gerados por texto-para-vídeo nos dois critérios. Experimentos no conjunto de dados TVGE demonstram a superioridade do T2VScore proposto ao oferecer uma métrica melhor para a geração de texto-para-vídeo.
English
Generative models have demonstrated remarkable capability in synthesizing
high-quality text, images, and videos. For video generation, contemporary
text-to-video models exhibit impressive capabilities, crafting visually
stunning videos. Nonetheless, evaluating such videos poses significant
challenges. Current research predominantly employs automated metrics such as
FVD, IS, and CLIP Score. However, these metrics provide an incomplete analysis,
particularly in the temporal assessment of video content, thus rendering them
unreliable indicators of true video quality. Furthermore, while user studies
have the potential to reflect human perception accurately, they are hampered by
their time-intensive and laborious nature, with outcomes that are often tainted
by subjective bias. In this paper, we investigate the limitations inherent in
existing metrics and introduce a novel evaluation pipeline, the Text-to-Video
Score (T2VScore). This metric integrates two pivotal criteria: (1) Text-Video
Alignment, which scrutinizes the fidelity of the video in representing the
given text description, and (2) Video Quality, which evaluates the video's
overall production caliber with a mixture of experts. Moreover, to evaluate the
proposed metrics and facilitate future improvements on them, we present the
TVGE dataset, collecting human judgements of 2,543 text-to-video generated
videos on the two criteria. Experiments on the TVGE dataset demonstrate the
superiority of the proposed T2VScore on offering a better metric for
text-to-video generation.