EvalCrafter: Avaliação e Comparação de Modelos de Geração de Vídeos em Grande Escala

Resumo

Os modelos generativos de visão e linguagem têm crescido significativamente nos últimos anos. Para a geração de vídeos, diversos modelos de código aberto e serviços disponíveis publicamente foram lançados para produzir vídeos de alta qualidade visual. No entanto, esses métodos frequentemente utilizam algumas métricas acadêmicas, como FVD ou IS, para avaliar o desempenho. Argumentamos que é difícil julgar modelos generativos condicionais de grande escala com base em métricas simples, uma vez que esses modelos são frequentemente treinados em conjuntos de dados muito grandes com habilidades multifacetadas. Assim, propomos um novo framework e pipeline para avaliar exaustivamente o desempenho dos vídeos gerados. Para isso, primeiro elaboramos uma nova lista de prompts para geração de texto-para-vídeo, analisando listas de prompts do mundo real com o auxílio de um modelo de linguagem de grande escala. Em seguida, avaliamos os modelos generativos de vídeo state-of-the-art em nossos benchmarks cuidadosamente projetados, considerando qualidade visual, qualidade de conteúdo, qualidade de movimento e alinhamento texto-legenda, com cerca de 18 métricas objetivas. Para obter a classificação final dos modelos, também ajustamos uma série de coeficientes para alinhar as métricas objetivas às opiniões dos usuários. Com base no método proposto de alinhamento de opiniões, nossa pontuação final mostra uma correlação maior do que a simples média das métricas, demonstrando a eficácia do método de avaliação proposto.

English

The vision and language generative models have been overgrown in recent years. For video generation, various open-sourced models and public-available services are released for generating high-visual quality videos. However, these methods often use a few academic metrics, for example, FVD or IS, to evaluate the performance. We argue that it is hard to judge the large conditional generative models from the simple metrics since these models are often trained on very large datasets with multi-aspect abilities. Thus, we propose a new framework and pipeline to exhaustively evaluate the performance of the generated videos. To achieve this, we first conduct a new prompt list for text-to-video generation by analyzing the real-world prompt list with the help of the large language model. Then, we evaluate the state-of-the-art video generative models on our carefully designed benchmarks, in terms of visual qualities, content qualities, motion qualities, and text-caption alignment with around 18 objective metrics. To obtain the final leaderboard of the models, we also fit a series of coefficients to align the objective metrics to the users' opinions. Based on the proposed opinion alignment method, our final score shows a higher correlation than simply averaging the metrics, showing the effectiveness of the proposed evaluation method.

EvalCrafter: Avaliação e Comparação de Modelos de Geração de Vídeos em Grande Escala

EvalCrafter: Benchmarking and Evaluating Large Video Generation Models

Resumo

Support