UVE: MLLMはAI生成動画の統一評価指標となり得るか?
UVE: Are MLLMs Unified Evaluators for AI-Generated Videos?
March 13, 2025
著者: Yuanxin Liu, Rui Zhu, Shuhuai Ren, Jiacong Wang, Haoyuan Guo, Xu Sun, Lu Jiang
cs.AI
要旨
ビデオ生成モデル(VGM)の急速な発展に伴い、AI生成ビデオ(AIGV)に対する信頼性の高く包括的な自動評価指標の開発が不可欠となっています。既存の手法は、他のタスク向けに最適化された既製モデルを使用するか、専門的な評価器を訓練するために人間の評価データに依存しています。これらのアプローチは特定の評価側面に限定されており、より細粒度で包括的な評価の需要が高まる中で拡張することが困難です。この問題に対処するため、本研究では、強力な視覚知覚と言語理解能力を活用して、マルチモーダル大規模言語モデル(MLLM)をAIGVの統一評価器として使用する可能性を探ります。統一AIGV評価における自動指標の性能を評価するために、UVE-Benchというベンチマークを導入しました。UVE-Benchは、最先端のVGMによって生成されたビデオを収集し、15の評価側面にわたるペアワイズ人間選好アノテーションを提供します。UVE-Benchを使用して、16のMLLMを広範に評価しました。我々の実証結果は、先進的なMLLM(例:Qwen2VL-72BやInternVL2.5-78B)が人間の評価者にはまだ及ばないものの、統一AIGV評価において有望な能力を示し、既存の専門的評価手法を大幅に上回ることを示唆しています。さらに、MLLM駆動の評価器の性能に影響を与える主要な設計選択について詳細な分析を行い、今後のAIGV評価研究に貴重な洞察を提供します。コードはhttps://github.com/bytedance/UVEで公開されています。
English
With the rapid growth of video generative models (VGMs), it is essential to
develop reliable and comprehensive automatic metrics for AI-generated videos
(AIGVs). Existing methods either use off-the-shelf models optimized for other
tasks or rely on human assessment data to train specialized evaluators. These
approaches are constrained to specific evaluation aspects and are difficult to
scale with the increasing demands for finer-grained and more comprehensive
evaluations. To address this issue, this work investigates the feasibility of
using multimodal large language models (MLLMs) as a unified evaluator for
AIGVs, leveraging their strong visual perception and language understanding
capabilities. To evaluate the performance of automatic metrics in unified AIGV
evaluation, we introduce a benchmark called UVE-Bench. UVE-Bench collects
videos generated by state-of-the-art VGMs and provides pairwise human
preference annotations across 15 evaluation aspects. Using UVE-Bench, we
extensively evaluate 16 MLLMs. Our empirical results suggest that while
advanced MLLMs (e.g., Qwen2VL-72B and InternVL2.5-78B) still lag behind human
evaluators, they demonstrate promising ability in unified AIGV evaluation,
significantly surpassing existing specialized evaluation methods. Additionally,
we conduct an in-depth analysis of key design choices that impact the
performance of MLLM-driven evaluators, offering valuable insights for future
research on AIGV evaluation. The code is available at
https://github.com/bytedance/UVE.