UVE: ¿Son los MLLMs evaluadores unificados para videos generados por IA?
UVE: Are MLLMs Unified Evaluators for AI-Generated Videos?
March 13, 2025
Autores: Yuanxin Liu, Rui Zhu, Shuhuai Ren, Jiacong Wang, Haoyuan Guo, Xu Sun, Lu Jiang
cs.AI
Resumen
Con el rápido crecimiento de los modelos generativos de video (VGMs, por sus siglas en inglés), es fundamental desarrollar métricas automáticas confiables y exhaustivas para los videos generados por IA (AIGVs, por sus siglas en inglés). Los métodos existentes utilizan modelos preentrenados optimizados para otras tareas o dependen de datos de evaluación humana para entrenar evaluadores especializados. Estos enfoques están limitados a aspectos específicos de evaluación y son difíciles de escalar ante la creciente demanda de evaluaciones más detalladas y completas. Para abordar este problema, este trabajo investiga la viabilidad de utilizar modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) como evaluadores unificados para AIGVs, aprovechando sus fuertes capacidades de percepción visual y comprensión del lenguaje. Para evaluar el rendimiento de las métricas automáticas en la evaluación unificada de AIGVs, presentamos un benchmark llamado UVE-Bench. UVE-Bench recopila videos generados por VGMs de última generación y proporciona anotaciones de preferencias humanas por pares en 15 aspectos de evaluación. Utilizando UVE-Bench, evaluamos extensamente 16 MLLMs. Nuestros resultados empíricos sugieren que, aunque los MLLMs avanzados (por ejemplo, Qwen2VL-72B e InternVL2.5-78B) aún están por detrás de los evaluadores humanos, demuestran una capacidad prometedora en la evaluación unificada de AIGVs, superando significativamente los métodos de evaluación especializados existentes. Además, realizamos un análisis en profundidad de las decisiones clave de diseño que impactan el rendimiento de los evaluadores basados en MLLMs, ofreciendo insights valiosos para futuras investigaciones sobre la evaluación de AIGVs. El código está disponible en https://github.com/bytedance/UVE.
English
With the rapid growth of video generative models (VGMs), it is essential to
develop reliable and comprehensive automatic metrics for AI-generated videos
(AIGVs). Existing methods either use off-the-shelf models optimized for other
tasks or rely on human assessment data to train specialized evaluators. These
approaches are constrained to specific evaluation aspects and are difficult to
scale with the increasing demands for finer-grained and more comprehensive
evaluations. To address this issue, this work investigates the feasibility of
using multimodal large language models (MLLMs) as a unified evaluator for
AIGVs, leveraging their strong visual perception and language understanding
capabilities. To evaluate the performance of automatic metrics in unified AIGV
evaluation, we introduce a benchmark called UVE-Bench. UVE-Bench collects
videos generated by state-of-the-art VGMs and provides pairwise human
preference annotations across 15 evaluation aspects. Using UVE-Bench, we
extensively evaluate 16 MLLMs. Our empirical results suggest that while
advanced MLLMs (e.g., Qwen2VL-72B and InternVL2.5-78B) still lag behind human
evaluators, they demonstrate promising ability in unified AIGV evaluation,
significantly surpassing existing specialized evaluation methods. Additionally,
we conduct an in-depth analysis of key design choices that impact the
performance of MLLM-driven evaluators, offering valuable insights for future
research on AIGV evaluation. The code is available at
https://github.com/bytedance/UVE.Summary
AI-Generated Summary