ChatPaper.aiChatPaper

UVE: Os MLLMs são Avaliadores Unificados para Vídeos Gerados por IA?

UVE: Are MLLMs Unified Evaluators for AI-Generated Videos?

March 13, 2025
Autores: Yuanxin Liu, Rui Zhu, Shuhuai Ren, Jiacong Wang, Haoyuan Guo, Xu Sun, Lu Jiang
cs.AI

Resumo

Com o rápido crescimento dos modelos generativos de vídeo (VGMs), é essencial desenvolver métricas automáticas confiáveis e abrangentes para vídeos gerados por IA (AIGVs). Os métodos existentes ou utilizam modelos prontos otimizados para outras tarefas ou dependem de dados de avaliação humana para treinar avaliadores especializados. Essas abordagens são limitadas a aspectos específicos de avaliação e são difíceis de escalar com as demandas crescentes por avaliações mais detalhadas e abrangentes. Para resolver esse problema, este trabalho investiga a viabilidade de usar modelos de linguagem multimodal de grande escala (MLLMs) como avaliadores unificados para AIGVs, aproveitando suas fortes capacidades de percepção visual e compreensão de linguagem. Para avaliar o desempenho das métricas automáticas na avaliação unificada de AIGVs, introduzimos um benchmark chamado UVE-Bench. O UVE-Bench coleta vídeos gerados por VGMs de última geração e fornece anotações de preferência humana em pares em 15 aspectos de avaliação. Usando o UVE-Bench, avaliamos extensivamente 16 MLLMs. Nossos resultados empíricos sugerem que, embora MLLMs avançados (por exemplo, Qwen2VL-72B e InternVL2.5-78B) ainda estejam atrás dos avaliadores humanos, eles demonstram uma capacidade promissora na avaliação unificada de AIGVs, superando significativamente os métodos de avaliação especializados existentes. Além disso, realizamos uma análise aprofundada das principais escolhas de design que impactam o desempenho dos avaliadores baseados em MLLMs, oferecendo insights valiosos para pesquisas futuras sobre avaliação de AIGVs. O código está disponível em https://github.com/bytedance/UVE.
English
With the rapid growth of video generative models (VGMs), it is essential to develop reliable and comprehensive automatic metrics for AI-generated videos (AIGVs). Existing methods either use off-the-shelf models optimized for other tasks or rely on human assessment data to train specialized evaluators. These approaches are constrained to specific evaluation aspects and are difficult to scale with the increasing demands for finer-grained and more comprehensive evaluations. To address this issue, this work investigates the feasibility of using multimodal large language models (MLLMs) as a unified evaluator for AIGVs, leveraging their strong visual perception and language understanding capabilities. To evaluate the performance of automatic metrics in unified AIGV evaluation, we introduce a benchmark called UVE-Bench. UVE-Bench collects videos generated by state-of-the-art VGMs and provides pairwise human preference annotations across 15 evaluation aspects. Using UVE-Bench, we extensively evaluate 16 MLLMs. Our empirical results suggest that while advanced MLLMs (e.g., Qwen2VL-72B and InternVL2.5-78B) still lag behind human evaluators, they demonstrate promising ability in unified AIGV evaluation, significantly surpassing existing specialized evaluation methods. Additionally, we conduct an in-depth analysis of key design choices that impact the performance of MLLM-driven evaluators, offering valuable insights for future research on AIGV evaluation. The code is available at https://github.com/bytedance/UVE.

Summary

AI-Generated Summary

PDF52March 21, 2025