UVE: Zijn MLLMs Geünificeerde Evaluatoren voor AI-gegenereerde Video's?
UVE: Are MLLMs Unified Evaluators for AI-Generated Videos?
March 13, 2025
Auteurs: Yuanxin Liu, Rui Zhu, Shuhuai Ren, Jiacong Wang, Haoyuan Guo, Xu Sun, Lu Jiang
cs.AI
Samenvatting
Met de snelle groei van videogeneratieve modellen (VGMs) is het essentieel om betrouwbare en uitgebreide automatische metrieken te ontwikkelen voor AI-gegenereerde video's (AIGVs). Bestaande methoden gebruiken ofwel standaardmodellen die zijn geoptimaliseerd voor andere taken, of vertrouwen op menselijke beoordelingsgegevens om gespecialiseerde evaluatoren te trainen. Deze benaderingen zijn beperkt tot specifieke evaluatieaspecten en zijn moeilijk op te schalen met de toenemende vraag naar fijnmazigere en meer uitgebreide evaluaties. Om dit probleem aan te pakken, onderzoekt dit werk de haalbaarheid van het gebruik van multimodale grote taalmodellen (MLLMs) als een uniforme evaluator voor AIGVs, waarbij gebruik wordt gemaakt van hun sterke visuele perceptie en taalbegrip. Om de prestaties van automatische metrieken in uniforme AIGV-evaluatie te beoordelen, introduceren we een benchmark genaamd UVE-Bench. UVE-Bench verzamelt video's gegenereerd door state-of-the-art VGMs en biedt paarsgewijze menselijke voorkeursannotaties over 15 evaluatieaspecten. Met behulp van UVE-Bench evalueren we uitgebreid 16 MLLMs. Onze empirische resultaten suggereren dat hoewel geavanceerde MLLMs (bijv. Qwen2VL-72B en InternVL2.5-78B) nog achterblijven bij menselijke evaluatoren, ze een veelbelovend vermogen tonen in uniforme AIGV-evaluatie, waarbij ze bestaande gespecialiseerde evaluatiemethoden aanzienlijk overtreffen. Daarnaast voeren we een diepgaande analyse uit van belangrijke ontwerpkeuzes die de prestaties van MLLM-gestuurde evaluatoren beïnvloeden, wat waardevolle inzichten biedt voor toekomstig onderzoek naar AIGV-evaluatie. De code is beschikbaar op https://github.com/bytedance/UVE.
English
With the rapid growth of video generative models (VGMs), it is essential to
develop reliable and comprehensive automatic metrics for AI-generated videos
(AIGVs). Existing methods either use off-the-shelf models optimized for other
tasks or rely on human assessment data to train specialized evaluators. These
approaches are constrained to specific evaluation aspects and are difficult to
scale with the increasing demands for finer-grained and more comprehensive
evaluations. To address this issue, this work investigates the feasibility of
using multimodal large language models (MLLMs) as a unified evaluator for
AIGVs, leveraging their strong visual perception and language understanding
capabilities. To evaluate the performance of automatic metrics in unified AIGV
evaluation, we introduce a benchmark called UVE-Bench. UVE-Bench collects
videos generated by state-of-the-art VGMs and provides pairwise human
preference annotations across 15 evaluation aspects. Using UVE-Bench, we
extensively evaluate 16 MLLMs. Our empirical results suggest that while
advanced MLLMs (e.g., Qwen2VL-72B and InternVL2.5-78B) still lag behind human
evaluators, they demonstrate promising ability in unified AIGV evaluation,
significantly surpassing existing specialized evaluation methods. Additionally,
we conduct an in-depth analysis of key design choices that impact the
performance of MLLM-driven evaluators, offering valuable insights for future
research on AIGV evaluation. The code is available at
https://github.com/bytedance/UVE.Summary
AI-Generated Summary