ChatPaper.aiChatPaper

UVE: Gli MLLM sono valutatori unificati per i video generati dall'IA?

UVE: Are MLLMs Unified Evaluators for AI-Generated Videos?

March 13, 2025
Autori: Yuanxin Liu, Rui Zhu, Shuhuai Ren, Jiacong Wang, Haoyuan Guo, Xu Sun, Lu Jiang
cs.AI

Abstract

Con la rapida crescita dei modelli generativi di video (VGMs), è essenziale sviluppare metriche automatiche affidabili e complete per i video generati dall'intelligenza artificiale (AIGVs). I metodi esistenti utilizzano modelli preesistenti ottimizzati per altre attività o si basano su dati di valutazione umana per addestrare valutatori specializzati. Questi approcci sono limitati a specifici aspetti di valutazione e sono difficili da scalare con le crescenti esigenze di valutazioni più granulari e complete. Per affrontare questo problema, questo lavoro indaga la fattibilità di utilizzare modelli linguistici multimodali di grandi dimensioni (MLLMs) come valutatori unificati per gli AIGV, sfruttando le loro forti capacità di percezione visiva e comprensione del linguaggio. Per valutare le prestazioni delle metriche automatiche nella valutazione unificata degli AIGV, introduciamo un benchmark chiamato UVE-Bench. UVE-Bench raccoglie video generati dai più avanzati VGMs e fornisce annotazioni di preferenze umane in coppia su 15 aspetti di valutazione. Utilizzando UVE-Bench, valutiamo estensivamente 16 MLLMs. I nostri risultati empirici suggeriscono che, sebbene i MLLMs avanzati (ad esempio, Qwen2VL-72B e InternVL2.5-78B) siano ancora inferiori ai valutatori umani, dimostrano una promettente capacità nella valutazione unificata degli AIGV, superando significativamente i metodi di valutazione specializzati esistenti. Inoltre, conduciamo un'analisi approfondita delle scelte progettuali chiave che influenzano le prestazioni dei valutatori basati su MLLM, offrendo spunti preziosi per future ricerche sulla valutazione degli AIGV. Il codice è disponibile all'indirizzo https://github.com/bytedance/UVE.
English
With the rapid growth of video generative models (VGMs), it is essential to develop reliable and comprehensive automatic metrics for AI-generated videos (AIGVs). Existing methods either use off-the-shelf models optimized for other tasks or rely on human assessment data to train specialized evaluators. These approaches are constrained to specific evaluation aspects and are difficult to scale with the increasing demands for finer-grained and more comprehensive evaluations. To address this issue, this work investigates the feasibility of using multimodal large language models (MLLMs) as a unified evaluator for AIGVs, leveraging their strong visual perception and language understanding capabilities. To evaluate the performance of automatic metrics in unified AIGV evaluation, we introduce a benchmark called UVE-Bench. UVE-Bench collects videos generated by state-of-the-art VGMs and provides pairwise human preference annotations across 15 evaluation aspects. Using UVE-Bench, we extensively evaluate 16 MLLMs. Our empirical results suggest that while advanced MLLMs (e.g., Qwen2VL-72B and InternVL2.5-78B) still lag behind human evaluators, they demonstrate promising ability in unified AIGV evaluation, significantly surpassing existing specialized evaluation methods. Additionally, we conduct an in-depth analysis of key design choices that impact the performance of MLLM-driven evaluators, offering valuable insights for future research on AIGV evaluation. The code is available at https://github.com/bytedance/UVE.
PDF52March 21, 2025