T2V-CompBench: Un Benchmark Integral para la Generación de Texto a Video Compuesto
T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation
July 19, 2024
Autores: Kaiyue Sun, Kaiyi Huang, Xian Liu, Yue Wu, Zihan Xu, Zhenguo Li, Xihui Liu
cs.AI
Resumen
Los modelos de generación de texto a video (T2V) han avanzado significativamente, sin embargo, su capacidad para componer diferentes objetos, atributos, acciones y movimientos en un video sigue sin explorarse. Los benchmarks previos de texto a video también descuidan esta importante habilidad para la evaluación. En este trabajo, realizamos el primer estudio sistemático sobre generación de texto a video de manera compositiva. Proponemos T2V-CompBench, el primer benchmark diseñado para la generación de texto a video de forma compositiva. T2V-CompBench abarca diversos aspectos de la composicionalidad, incluyendo la vinculación consistente de atributos, la vinculación dinámica de atributos, relaciones espaciales, vinculación de movimiento, vinculación de acción, interacciones de objetos y numeración generativa. Además, diseñamos cuidadosamente métricas de evaluación basadas en MLLM, métricas basadas en detección y métricas basadas en seguimiento, que pueden reflejar mejor la calidad de generación de texto a video de manera compositiva de siete categorías propuestas con 700 estímulos de texto. La efectividad de las métricas propuestas se verifica mediante la correlación con evaluaciones humanas. También evaluamos varios modelos generativos de texto a video y realizamos un análisis exhaustivo entre diferentes modelos y diferentes categorías compositivas. Descubrimos que la generación de texto a video de manera compositiva es altamente desafiante para los modelos actuales, y esperamos que nuestro intento arroje luz sobre futuras investigaciones en esta dirección.
English
Text-to-video (T2V) generation models have advanced significantly, yet their
ability to compose different objects, attributes, actions, and motions into a
video remains unexplored. Previous text-to-video benchmarks also neglect this
important ability for evaluation. In this work, we conduct the first systematic
study on compositional text-to-video generation. We propose T2V-CompBench, the
first benchmark tailored for compositional text-to-video generation.
T2V-CompBench encompasses diverse aspects of compositionality, including
consistent attribute binding, dynamic attribute binding, spatial relationships,
motion binding, action binding, object interactions, and generative numeracy.
We further carefully design evaluation metrics of MLLM-based metrics,
detection-based metrics, and tracking-based metrics, which can better reflect
the compositional text-to-video generation quality of seven proposed categories
with 700 text prompts. The effectiveness of the proposed metrics is verified by
correlation with human evaluations. We also benchmark various text-to-video
generative models and conduct in-depth analysis across different models and
different compositional categories. We find that compositional text-to-video
generation is highly challenging for current models, and we hope that our
attempt will shed light on future research in this direction.Summary
AI-Generated Summary