T2V-CompBench: Un Benchmark Completo per la Generazione Composizionale da Testo a Video

Abstract

I modelli di generazione testo-video (T2V) hanno compiuto progressi significativi, ma la loro capacità di comporre oggetti, attributi, azioni e movimenti in un video rimane ancora inesplorata. Anche i precedenti benchmark per la generazione testo-video hanno trascurato questa importante abilità nella valutazione. In questo lavoro, conduciamo il primo studio sistematico sulla generazione testo-video composizionale. Proponiamo T2V-CompBench, il primo benchmark specificamente progettato per la generazione testo-video composizionale. T2V-CompBench abbraccia diversi aspetti della composizionalità, tra cui il legame coerente degli attributi, il legame dinamico degli attributi, le relazioni spaziali, il legame dei movimenti, il legame delle azioni, le interazioni tra oggetti e la numerazione generativa. Abbiamo inoltre progettato con cura metriche di valutazione basate su MLLM, metriche basate sul rilevamento e metriche basate sul tracciamento, che possono riflettere meglio la qualità della generazione testo-video composizionale in sette categorie proposte con 700 prompt testuali. L'efficacia delle metriche proposte è verificata dalla correlazione con le valutazioni umane. Abbiamo anche valutato vari modelli generativi testo-video e condotto un'analisi approfondita tra diversi modelli e diverse categorie composizionali. Scopriamo che la generazione testo-video composizionale è estremamente impegnativa per i modelli attuali, e speriamo che il nostro tentativo possa illuminare la ricerca futura in questa direzione.

English

Text-to-video (T2V) generation models have advanced significantly, yet their ability to compose different objects, attributes, actions, and motions into a video remains unexplored. Previous text-to-video benchmarks also neglect this important ability for evaluation. In this work, we conduct the first systematic study on compositional text-to-video generation. We propose T2V-CompBench, the first benchmark tailored for compositional text-to-video generation. T2V-CompBench encompasses diverse aspects of compositionality, including consistent attribute binding, dynamic attribute binding, spatial relationships, motion binding, action binding, object interactions, and generative numeracy. We further carefully design evaluation metrics of MLLM-based metrics, detection-based metrics, and tracking-based metrics, which can better reflect the compositional text-to-video generation quality of seven proposed categories with 700 text prompts. The effectiveness of the proposed metrics is verified by correlation with human evaluations. We also benchmark various text-to-video generative models and conduct in-depth analysis across different models and different compositional categories. We find that compositional text-to-video generation is highly challenging for current models, and we hope that our attempt will shed light on future research in this direction.

T2V-CompBench: Un Benchmark Completo per la Generazione Composizionale da Testo a Video

T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation

Abstract

Support