T2V-CompBench: Een Uitgebreide Benchmark voor Compositionele Tekst-naar-Video Generatie
T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation
July 19, 2024
Auteurs: Kaiyue Sun, Kaiyi Huang, Xian Liu, Yue Wu, Zihan Xu, Zhenguo Li, Xihui Liu
cs.AI
Samenvatting
Text-to-video (T2V)-generatiemodellen hebben aanzienlijke vooruitgang geboekt, maar hun vermogen om verschillende objecten, attributen, acties en bewegingen in een video samen te stellen, blijft nog onontgonnen. Eerdere benchmarks voor text-to-video negeren ook dit belangrijke vermogen voor evaluatie. In dit werk voeren we de eerste systematische studie uit naar compositionele text-to-video-generatie. We introduceren T2V-CompBench, de eerste benchmark die specifiek is ontworpen voor compositionele text-to-video-generatie. T2V-CompBench omvat diverse aspecten van compositionaliteit, waaronder consistente attribuutbinding, dynamische attribuutbinding, ruimtelijke relaties, bewegingbinding, actiebinding, objectinteracties en generatieve numeriek. We ontwerpen verder zorgvuldig evaluatiemetrics op basis van MLLM-gebaseerde metrics, detectiegebaseerde metrics en trackinggebaseerde metrics, die de kwaliteit van compositionele text-to-video-generatie beter kunnen weerspiegelen voor zeven voorgestelde categorieën met 700 tekstprompts. De effectiviteit van de voorgestelde metrics wordt geverifieerd door correlatie met menselijke evaluaties. We benchmarken ook verschillende text-to-video-generatieve modellen en voeren een diepgaande analyse uit over verschillende modellen en verschillende compositionele categorieën. We constateren dat compositionele text-to-video-generatie zeer uitdagend is voor huidige modellen, en we hopen dat onze poging toekomstig onderzoek in deze richting zal inspireren.
English
Text-to-video (T2V) generation models have advanced significantly, yet their
ability to compose different objects, attributes, actions, and motions into a
video remains unexplored. Previous text-to-video benchmarks also neglect this
important ability for evaluation. In this work, we conduct the first systematic
study on compositional text-to-video generation. We propose T2V-CompBench, the
first benchmark tailored for compositional text-to-video generation.
T2V-CompBench encompasses diverse aspects of compositionality, including
consistent attribute binding, dynamic attribute binding, spatial relationships,
motion binding, action binding, object interactions, and generative numeracy.
We further carefully design evaluation metrics of MLLM-based metrics,
detection-based metrics, and tracking-based metrics, which can better reflect
the compositional text-to-video generation quality of seven proposed categories
with 700 text prompts. The effectiveness of the proposed metrics is verified by
correlation with human evaluations. We also benchmark various text-to-video
generative models and conduct in-depth analysis across different models and
different compositional categories. We find that compositional text-to-video
generation is highly challenging for current models, and we hope that our
attempt will shed light on future research in this direction.