ChatPaper.aiChatPaper

UVE : Les MLLM sont-ils des évaluateurs unifiés pour les vidéos générées par l'IA ?

UVE: Are MLLMs Unified Evaluators for AI-Generated Videos?

March 13, 2025
Auteurs: Yuanxin Liu, Rui Zhu, Shuhuai Ren, Jiacong Wang, Haoyuan Guo, Xu Sun, Lu Jiang
cs.AI

Résumé

Avec la croissance rapide des modèles génératifs de vidéos (VGMs), il est essentiel de développer des métriques automatiques fiables et exhaustives pour les vidéos générées par l'IA (AIGVs). Les méthodes existantes utilisent soit des modèles prêts à l'emploi optimisés pour d'autres tâches, soit s'appuient sur des données d'évaluation humaine pour entraîner des évaluateurs spécialisés. Ces approches sont limitées à des aspects d'évaluation spécifiques et sont difficiles à adapter face aux demandes croissantes d'évaluations plus fines et plus complètes. Pour résoudre ce problème, ce travail explore la faisabilité d'utiliser des modèles de langage multimodaux de grande taille (MLLMs) comme évaluateurs unifiés pour les AIGVs, en tirant parti de leurs fortes capacités de perception visuelle et de compréhension du langage. Pour évaluer la performance des métriques automatiques dans l'évaluation unifiée des AIGVs, nous introduisons un benchmark appelé UVE-Bench. UVE-Bench collecte des vidéos générées par des VGMs de pointe et fournit des annotations de préférence humaine par paires couvrant 15 aspects d'évaluation. En utilisant UVE-Bench, nous évaluons de manière approfondie 16 MLLMs. Nos résultats empiriques suggèrent que, bien que les MLLMs avancés (par exemple, Qwen2VL-72B et InternVL2.5-78B) soient encore en retard par rapport aux évaluateurs humains, ils démontrent une capacité prometteuse dans l'évaluation unifiée des AIGVs, surpassant significativement les méthodes d'évaluation spécialisées existantes. De plus, nous menons une analyse approfondie des choix de conception clés qui influencent la performance des évaluateurs basés sur les MLLMs, offrant des insights précieux pour les recherches futures sur l'évaluation des AIGVs. Le code est disponible à l'adresse https://github.com/bytedance/UVE.
English
With the rapid growth of video generative models (VGMs), it is essential to develop reliable and comprehensive automatic metrics for AI-generated videos (AIGVs). Existing methods either use off-the-shelf models optimized for other tasks or rely on human assessment data to train specialized evaluators. These approaches are constrained to specific evaluation aspects and are difficult to scale with the increasing demands for finer-grained and more comprehensive evaluations. To address this issue, this work investigates the feasibility of using multimodal large language models (MLLMs) as a unified evaluator for AIGVs, leveraging their strong visual perception and language understanding capabilities. To evaluate the performance of automatic metrics in unified AIGV evaluation, we introduce a benchmark called UVE-Bench. UVE-Bench collects videos generated by state-of-the-art VGMs and provides pairwise human preference annotations across 15 evaluation aspects. Using UVE-Bench, we extensively evaluate 16 MLLMs. Our empirical results suggest that while advanced MLLMs (e.g., Qwen2VL-72B and InternVL2.5-78B) still lag behind human evaluators, they demonstrate promising ability in unified AIGV evaluation, significantly surpassing existing specialized evaluation methods. Additionally, we conduct an in-depth analysis of key design choices that impact the performance of MLLM-driven evaluators, offering valuable insights for future research on AIGV evaluation. The code is available at https://github.com/bytedance/UVE.

Summary

AI-Generated Summary

PDF52March 21, 2025