EvalCrafter: Avaliação e Comparação de Modelos de Geração de Vídeos em Grande Escala
EvalCrafter: Benchmarking and Evaluating Large Video Generation Models
October 17, 2023
Autores: Yaofang Liu, Xiaodong Cun, Xuebo Liu, Xintao Wang, Yong Zhang, Haoxin Chen, Yang Liu, Tieyong Zeng, Raymond Chan, Ying Shan
cs.AI
Resumo
Os modelos generativos de visão e linguagem têm crescido significativamente nos últimos anos. Para a geração de vídeos, diversos modelos de código aberto e serviços disponíveis publicamente foram lançados para produzir vídeos de alta qualidade visual. No entanto, esses métodos frequentemente utilizam algumas métricas acadêmicas, como FVD ou IS, para avaliar o desempenho. Argumentamos que é difícil julgar modelos generativos condicionais de grande escala com base em métricas simples, uma vez que esses modelos são frequentemente treinados em conjuntos de dados muito grandes com habilidades multifacetadas. Assim, propomos um novo framework e pipeline para avaliar exaustivamente o desempenho dos vídeos gerados. Para isso, primeiro elaboramos uma nova lista de prompts para geração de texto-para-vídeo, analisando listas de prompts do mundo real com o auxílio de um modelo de linguagem de grande escala. Em seguida, avaliamos os modelos generativos de vídeo state-of-the-art em nossos benchmarks cuidadosamente projetados, considerando qualidade visual, qualidade de conteúdo, qualidade de movimento e alinhamento texto-legenda, com cerca de 18 métricas objetivas. Para obter a classificação final dos modelos, também ajustamos uma série de coeficientes para alinhar as métricas objetivas às opiniões dos usuários. Com base no método proposto de alinhamento de opiniões, nossa pontuação final mostra uma correlação maior do que a simples média das métricas, demonstrando a eficácia do método de avaliação proposto.
English
The vision and language generative models have been overgrown in recent
years. For video generation, various open-sourced models and public-available
services are released for generating high-visual quality videos. However, these
methods often use a few academic metrics, for example, FVD or IS, to evaluate
the performance. We argue that it is hard to judge the large conditional
generative models from the simple metrics since these models are often trained
on very large datasets with multi-aspect abilities. Thus, we propose a new
framework and pipeline to exhaustively evaluate the performance of the
generated videos. To achieve this, we first conduct a new prompt list for
text-to-video generation by analyzing the real-world prompt list with the help
of the large language model. Then, we evaluate the state-of-the-art video
generative models on our carefully designed benchmarks, in terms of visual
qualities, content qualities, motion qualities, and text-caption alignment with
around 18 objective metrics. To obtain the final leaderboard of the models, we
also fit a series of coefficients to align the objective metrics to the users'
opinions. Based on the proposed opinion alignment method, our final score shows
a higher correlation than simply averaging the metrics, showing the
effectiveness of the proposed evaluation method.