T2V-CompBench: Un Benchmark Completo per la Generazione Composizionale da Testo a Video
T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation
July 19, 2024
Autori: Kaiyue Sun, Kaiyi Huang, Xian Liu, Yue Wu, Zihan Xu, Zhenguo Li, Xihui Liu
cs.AI
Abstract
I modelli di generazione testo-video (T2V) hanno compiuto progressi significativi, ma la loro capacità di comporre oggetti, attributi, azioni e movimenti in un video rimane ancora inesplorata. Anche i precedenti benchmark per la generazione testo-video hanno trascurato questa importante abilità nella valutazione. In questo lavoro, conduciamo il primo studio sistematico sulla generazione testo-video composizionale. Proponiamo T2V-CompBench, il primo benchmark specificamente progettato per la generazione testo-video composizionale. T2V-CompBench abbraccia diversi aspetti della composizionalità, tra cui il legame coerente degli attributi, il legame dinamico degli attributi, le relazioni spaziali, il legame dei movimenti, il legame delle azioni, le interazioni tra oggetti e la numerazione generativa. Abbiamo inoltre progettato con cura metriche di valutazione basate su MLLM, metriche basate sul rilevamento e metriche basate sul tracciamento, che possono riflettere meglio la qualità della generazione testo-video composizionale in sette categorie proposte con 700 prompt testuali. L'efficacia delle metriche proposte è verificata dalla correlazione con le valutazioni umane. Abbiamo anche valutato vari modelli generativi testo-video e condotto un'analisi approfondita tra diversi modelli e diverse categorie composizionali. Scopriamo che la generazione testo-video composizionale è estremamente impegnativa per i modelli attuali, e speriamo che il nostro tentativo possa illuminare la ricerca futura in questa direzione.
English
Text-to-video (T2V) generation models have advanced significantly, yet their
ability to compose different objects, attributes, actions, and motions into a
video remains unexplored. Previous text-to-video benchmarks also neglect this
important ability for evaluation. In this work, we conduct the first systematic
study on compositional text-to-video generation. We propose T2V-CompBench, the
first benchmark tailored for compositional text-to-video generation.
T2V-CompBench encompasses diverse aspects of compositionality, including
consistent attribute binding, dynamic attribute binding, spatial relationships,
motion binding, action binding, object interactions, and generative numeracy.
We further carefully design evaluation metrics of MLLM-based metrics,
detection-based metrics, and tracking-based metrics, which can better reflect
the compositional text-to-video generation quality of seven proposed categories
with 700 text prompts. The effectiveness of the proposed metrics is verified by
correlation with human evaluations. We also benchmark various text-to-video
generative models and conduct in-depth analysis across different models and
different compositional categories. We find that compositional text-to-video
generation is highly challenging for current models, and we hope that our
attempt will shed light on future research in this direction.