VBench++: Conjunto de Testes Abrangente e Versátil para Modelos Generativos de Vídeo
VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models
November 20, 2024
Autores: Ziqi Huang, Fan Zhang, Xiaojie Xu, Yinan He, Jiashuo Yu, Ziyue Dong, Qianli Ma, Nattapol Chanpaisit, Chenyang Si, Yuming Jiang, Yaohui Wang, Xinyuan Chen, Ying-Cong Chen, Limin Wang, Dahua Lin, Yu Qiao, Ziwei Liu
cs.AI
Resumo
A geração de vídeo tem testemunhado avanços significativos, no entanto, a avaliação desses modelos continua sendo um desafio. Um benchmark abrangente de avaliação para geração de vídeo é indispensável por duas razões: 1) As métricas existentes não estão totalmente alinhadas com as percepções humanas; 2) Um sistema de avaliação ideal deve fornecer insights para orientar futuros desenvolvimentos na geração de vídeo. Nesse sentido, apresentamos o VBench, uma suíte de benchmark abrangente que divide a "qualidade da geração de vídeo" em dimensões específicas, hierárquicas e desembaraçadas, cada uma com instruções e métodos de avaliação personalizados. O VBench possui várias propriedades atrativas: 1) Dimensões Abrangentes: O VBench compreende 16 dimensões na geração de vídeo (por exemplo, inconsistência na identidade do sujeito, suavidade do movimento, cintilação temporal e relação espacial, etc). As métricas de avaliação com níveis detalhados revelam as forças e fraquezas dos modelos individuais. 2) Alinhamento Humano: Também fornecemos um conjunto de dados de anotações de preferência humana para validar o alinhamento de nossos benchmarks com a percepção humana, para cada dimensão de avaliação, respectivamente. 3) Insights Valiosos: Analisamos a capacidade dos modelos atuais em várias dimensões de avaliação e tipos de conteúdo diversos. Também investigamos as lacunas entre os modelos de geração de vídeo e imagem. 4) Benchmarking Versátil: O VBench++ suporta a avaliação de texto-para-vídeo e imagem-para-vídeo. Apresentamos um Conjunto de Imagens de alta qualidade com uma proporção de aspecto adaptativa para permitir avaliações justas em diferentes configurações de geração de imagem-para-vídeo. Além de avaliar a qualidade técnica, o VBench++ avalia a confiabilidade dos modelos gerativos de vídeo, fornecendo uma visão mais holística do desempenho do modelo. 5) Totalmente de Código Aberto: Disponibilizamos o VBench++ em código aberto completo e continuamente adicionamos novos modelos de geração de vídeo ao nosso ranking para impulsionar o campo da geração de vídeo.
English
Video generation has witnessed significant advancements, yet evaluating these
models remains a challenge. A comprehensive evaluation benchmark for video
generation is indispensable for two reasons: 1) Existing metrics do not fully
align with human perceptions; 2) An ideal evaluation system should provide
insights to inform future developments of video generation. To this end, we
present VBench, a comprehensive benchmark suite that dissects "video generation
quality" into specific, hierarchical, and disentangled dimensions, each with
tailored prompts and evaluation methods. VBench has several appealing
properties: 1) Comprehensive Dimensions: VBench comprises 16 dimensions in
video generation (e.g., subject identity inconsistency, motion smoothness,
temporal flickering, and spatial relationship, etc). The evaluation metrics
with fine-grained levels reveal individual models' strengths and weaknesses. 2)
Human Alignment: We also provide a dataset of human preference annotations to
validate our benchmarks' alignment with human perception, for each evaluation
dimension respectively. 3) Valuable Insights: We look into current models'
ability across various evaluation dimensions, and various content types. We
also investigate the gaps between video and image generation models. 4)
Versatile Benchmarking: VBench++ supports evaluating text-to-video and
image-to-video. We introduce a high-quality Image Suite with an adaptive aspect
ratio to enable fair evaluations across different image-to-video generation
settings. Beyond assessing technical quality, VBench++ evaluates the
trustworthiness of video generative models, providing a more holistic view of
model performance. 5) Full Open-Sourcing: We fully open-source VBench++ and
continually add new video generation models to our leaderboard to drive forward
the field of video generation.Summary
AI-Generated Summary