UVE: Являются ли MLLMs унифицированными оценщиками для видео, созданных искусственным интеллектом?
UVE: Are MLLMs Unified Evaluators for AI-Generated Videos?
March 13, 2025
Авторы: Yuanxin Liu, Rui Zhu, Shuhuai Ren, Jiacong Wang, Haoyuan Guo, Xu Sun, Lu Jiang
cs.AI
Аннотация
С быстрым развитием моделей генерации видео (VGMs) становится крайне важным создание надежных и всеобъемлющих автоматических метрик для видео, созданных искусственным интеллектом (AIGVs). Существующие методы либо используют готовые модели, оптимизированные для других задач, либо полагаются на данные, полученные от человеческой оценки, для обучения специализированных оценщиков. Эти подходы ограничены конкретными аспектами оценки и сложно масштабируются с учетом растущих требований к более детализированной и комплексной оценке. Чтобы решить эту проблему, в данной работе исследуется возможность использования мультимодальных больших языковых моделей (MLLMs) в качестве унифицированного оценщика для AIGVs, используя их мощные возможности визуального восприятия и понимания языка. Для оценки производительности автоматических метрик в унифицированной оценке AIGV мы представляем бенчмарк под названием UVE-Bench. UVE-Bench собирает видео, созданные передовыми VGMs, и предоставляет парные аннотации человеческих предпочтений по 15 аспектам оценки. Используя UVE-Bench, мы тщательно оцениваем 16 MLLMs. Наши эмпирические результаты показывают, что, хотя передовые MLLMs (например, Qwen2VL-72B и InternVL2.5-78B) все еще отстают от человеческих оценщиков, они демонстрируют многообещающие способности в унифицированной оценке AIGVs, значительно превосходя существующие специализированные методы оценки. Кроме того, мы проводим углубленный анализ ключевых проектных решений, влияющих на производительность оценщиков на основе MLLMs, предлагая ценные инсайты для будущих исследований в области оценки AIGVs. Код доступен по адресу https://github.com/bytedance/UVE.
English
With the rapid growth of video generative models (VGMs), it is essential to
develop reliable and comprehensive automatic metrics for AI-generated videos
(AIGVs). Existing methods either use off-the-shelf models optimized for other
tasks or rely on human assessment data to train specialized evaluators. These
approaches are constrained to specific evaluation aspects and are difficult to
scale with the increasing demands for finer-grained and more comprehensive
evaluations. To address this issue, this work investigates the feasibility of
using multimodal large language models (MLLMs) as a unified evaluator for
AIGVs, leveraging their strong visual perception and language understanding
capabilities. To evaluate the performance of automatic metrics in unified AIGV
evaluation, we introduce a benchmark called UVE-Bench. UVE-Bench collects
videos generated by state-of-the-art VGMs and provides pairwise human
preference annotations across 15 evaluation aspects. Using UVE-Bench, we
extensively evaluate 16 MLLMs. Our empirical results suggest that while
advanced MLLMs (e.g., Qwen2VL-72B and InternVL2.5-78B) still lag behind human
evaluators, they demonstrate promising ability in unified AIGV evaluation,
significantly surpassing existing specialized evaluation methods. Additionally,
we conduct an in-depth analysis of key design choices that impact the
performance of MLLM-driven evaluators, offering valuable insights for future
research on AIGV evaluation. The code is available at
https://github.com/bytedance/UVE.Summary
AI-Generated Summary