ChatPaper.aiChatPaper

VBench++: Conjunto de Testes Abrangente e Versátil para Modelos Generativos de Vídeo

VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models

November 20, 2024
Autores: Ziqi Huang, Fan Zhang, Xiaojie Xu, Yinan He, Jiashuo Yu, Ziyue Dong, Qianli Ma, Nattapol Chanpaisit, Chenyang Si, Yuming Jiang, Yaohui Wang, Xinyuan Chen, Ying-Cong Chen, Limin Wang, Dahua Lin, Yu Qiao, Ziwei Liu
cs.AI

Resumo

A geração de vídeo tem testemunhado avanços significativos, no entanto, a avaliação desses modelos continua sendo um desafio. Um benchmark abrangente de avaliação para geração de vídeo é indispensável por duas razões: 1) As métricas existentes não estão totalmente alinhadas com as percepções humanas; 2) Um sistema de avaliação ideal deve fornecer insights para orientar futuros desenvolvimentos na geração de vídeo. Nesse sentido, apresentamos o VBench, uma suíte de benchmark abrangente que divide a "qualidade da geração de vídeo" em dimensões específicas, hierárquicas e desembaraçadas, cada uma com instruções e métodos de avaliação personalizados. O VBench possui várias propriedades atrativas: 1) Dimensões Abrangentes: O VBench compreende 16 dimensões na geração de vídeo (por exemplo, inconsistência na identidade do sujeito, suavidade do movimento, cintilação temporal e relação espacial, etc). As métricas de avaliação com níveis detalhados revelam as forças e fraquezas dos modelos individuais. 2) Alinhamento Humano: Também fornecemos um conjunto de dados de anotações de preferência humana para validar o alinhamento de nossos benchmarks com a percepção humana, para cada dimensão de avaliação, respectivamente. 3) Insights Valiosos: Analisamos a capacidade dos modelos atuais em várias dimensões de avaliação e tipos de conteúdo diversos. Também investigamos as lacunas entre os modelos de geração de vídeo e imagem. 4) Benchmarking Versátil: O VBench++ suporta a avaliação de texto-para-vídeo e imagem-para-vídeo. Apresentamos um Conjunto de Imagens de alta qualidade com uma proporção de aspecto adaptativa para permitir avaliações justas em diferentes configurações de geração de imagem-para-vídeo. Além de avaliar a qualidade técnica, o VBench++ avalia a confiabilidade dos modelos gerativos de vídeo, fornecendo uma visão mais holística do desempenho do modelo. 5) Totalmente de Código Aberto: Disponibilizamos o VBench++ em código aberto completo e continuamente adicionamos novos modelos de geração de vídeo ao nosso ranking para impulsionar o campo da geração de vídeo.
English
Video generation has witnessed significant advancements, yet evaluating these models remains a challenge. A comprehensive evaluation benchmark for video generation is indispensable for two reasons: 1) Existing metrics do not fully align with human perceptions; 2) An ideal evaluation system should provide insights to inform future developments of video generation. To this end, we present VBench, a comprehensive benchmark suite that dissects "video generation quality" into specific, hierarchical, and disentangled dimensions, each with tailored prompts and evaluation methods. VBench has several appealing properties: 1) Comprehensive Dimensions: VBench comprises 16 dimensions in video generation (e.g., subject identity inconsistency, motion smoothness, temporal flickering, and spatial relationship, etc). The evaluation metrics with fine-grained levels reveal individual models' strengths and weaknesses. 2) Human Alignment: We also provide a dataset of human preference annotations to validate our benchmarks' alignment with human perception, for each evaluation dimension respectively. 3) Valuable Insights: We look into current models' ability across various evaluation dimensions, and various content types. We also investigate the gaps between video and image generation models. 4) Versatile Benchmarking: VBench++ supports evaluating text-to-video and image-to-video. We introduce a high-quality Image Suite with an adaptive aspect ratio to enable fair evaluations across different image-to-video generation settings. Beyond assessing technical quality, VBench++ evaluates the trustworthiness of video generative models, providing a more holistic view of model performance. 5) Full Open-Sourcing: We fully open-source VBench++ and continually add new video generation models to our leaderboard to drive forward the field of video generation.

Summary

AI-Generated Summary

PDF353November 21, 2024