ChatPaper.aiChatPaper

UVE: MLLM은 AI 생성 비디오를 위한 통합 평가자인가?

UVE: Are MLLMs Unified Evaluators for AI-Generated Videos?

March 13, 2025
저자: Yuanxin Liu, Rui Zhu, Shuhuai Ren, Jiacong Wang, Haoyuan Guo, Xu Sun, Lu Jiang
cs.AI

초록

비디오 생성 모델(VGMs)의 급속한 성장과 함께, AI 생성 비디오(AIGVs)를 위한 신뢰할 수 있고 포괄적인 자동 평가 지표를 개발하는 것이 중요해졌습니다. 기존 방법들은 다른 작업에 최적화된 기성 모델을 사용하거나, 인간 평가 데이터에 의존하여 특화된 평가자를 학습시키는 방식에 머물러 있습니다. 이러한 접근법들은 특정 평가 측면에 국한되며, 더 세분화되고 포괄적인 평가 요구가 증가함에 따라 확장하기 어렵다는 한계가 있습니다. 이러한 문제를 해결하기 위해, 본 연구는 다중모드 대형 언어 모델(MLLMs)이 강력한 시각 인식 및 언어 이해 능력을 활용하여 AIGVs를 위한 통합 평가자로 사용될 가능성을 탐구합니다. 통합 AIGV 평가에서 자동 평가 지표의 성능을 평가하기 위해, 우리는 UVE-Bench라는 벤치마크를 도입했습니다. UVE-Bench는 최신 VGMs에 의해 생성된 비디오를 수집하고, 15개의 평가 측면에 걸친 인간의 쌍대 비교 선호도 주석을 제공합니다. UVE-Bench를 사용하여, 우리는 16개의 MLLMs을 광범위하게 평가했습니다. 실험 결과, 고급 MLLMs(예: Qwen2VL-72B 및 InternVL2.5-78B)은 여전히 인간 평가자에 뒤처지지만, 통합 AIGV 평가에서 유망한 능력을 보여주며, 기존의 특화된 평가 방법들을 크게 능가하는 것으로 나타났습니다. 또한, 우리는 MLLM 기반 평가자의 성능에 영향을 미치는 주요 설계 선택 사항에 대한 심층 분석을 수행하여, AIGV 평가에 대한 미래 연구를 위한 귀중한 통찰을 제공합니다. 코드는 https://github.com/bytedance/UVE에서 확인할 수 있습니다.
English
With the rapid growth of video generative models (VGMs), it is essential to develop reliable and comprehensive automatic metrics for AI-generated videos (AIGVs). Existing methods either use off-the-shelf models optimized for other tasks or rely on human assessment data to train specialized evaluators. These approaches are constrained to specific evaluation aspects and are difficult to scale with the increasing demands for finer-grained and more comprehensive evaluations. To address this issue, this work investigates the feasibility of using multimodal large language models (MLLMs) as a unified evaluator for AIGVs, leveraging their strong visual perception and language understanding capabilities. To evaluate the performance of automatic metrics in unified AIGV evaluation, we introduce a benchmark called UVE-Bench. UVE-Bench collects videos generated by state-of-the-art VGMs and provides pairwise human preference annotations across 15 evaluation aspects. Using UVE-Bench, we extensively evaluate 16 MLLMs. Our empirical results suggest that while advanced MLLMs (e.g., Qwen2VL-72B and InternVL2.5-78B) still lag behind human evaluators, they demonstrate promising ability in unified AIGV evaluation, significantly surpassing existing specialized evaluation methods. Additionally, we conduct an in-depth analysis of key design choices that impact the performance of MLLM-driven evaluators, offering valuable insights for future research on AIGV evaluation. The code is available at https://github.com/bytedance/UVE.

Summary

AI-Generated Summary

PDF52March 21, 2025