T2V-CompBench: Обширный бенчмарк для композиционного преобразования текста в видео
T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation
July 19, 2024
Авторы: Kaiyue Sun, Kaiyi Huang, Xian Liu, Yue Wu, Zihan Xu, Zhenguo Li, Xihui Liu
cs.AI
Аннотация
Модели генерации видео по тексту (T2V) значительно продвинулись, однако их способность компоновать различные объекты, атрибуты, действия и движения в видео остается неисследованной. Предыдущие бенчмарки по генерации видео по тексту также игнорируют эту важную способность для оценки. В данной работе мы проводим первое систематическое исследование композиционной генерации видео по тексту. Мы предлагаем T2V-CompBench, первый бенчмарк, разработанный специально для композиционной генерации видео по тексту. T2V-CompBench охватывает различные аспекты композициональности, включая последовательное привязывание атрибутов, динамическое привязывание атрибутов, пространственные отношения, привязывание движения, привязывание действий, взаимодействия объектов и генеративную числовую грамотность. Мы также тщательно разрабатываем метрики оценки на основе MLLM, метрики на основе детекции и метрики на основе трекинга, которые могут лучше отражать качество композиционной генерации видео по тексту для семи предложенных категорий с 700 текстовыми подсказками. Эффективность предложенных метрик подтверждается корреляцией с оценками людей. Мы также проводим оценку различных моделей генерации видео по тексту и проводим глубокий анализ различных моделей и различных композиционных категорий. Мы приходим к выводу, что композиционная генерация видео по тексту представляет собой очень сложную задачу для текущих моделей, и надеемся, что наша попытка прольет свет на будущие исследования в этом направлении.
English
Text-to-video (T2V) generation models have advanced significantly, yet their
ability to compose different objects, attributes, actions, and motions into a
video remains unexplored. Previous text-to-video benchmarks also neglect this
important ability for evaluation. In this work, we conduct the first systematic
study on compositional text-to-video generation. We propose T2V-CompBench, the
first benchmark tailored for compositional text-to-video generation.
T2V-CompBench encompasses diverse aspects of compositionality, including
consistent attribute binding, dynamic attribute binding, spatial relationships,
motion binding, action binding, object interactions, and generative numeracy.
We further carefully design evaluation metrics of MLLM-based metrics,
detection-based metrics, and tracking-based metrics, which can better reflect
the compositional text-to-video generation quality of seven proposed categories
with 700 text prompts. The effectiveness of the proposed metrics is verified by
correlation with human evaluations. We also benchmark various text-to-video
generative models and conduct in-depth analysis across different models and
different compositional categories. We find that compositional text-to-video
generation is highly challenging for current models, and we hope that our
attempt will shed light on future research in this direction.Summary
AI-Generated Summary