T2V-CompBench : Un Benchmark Complet pour la Génération Compositionnelle de Texte vers Vidéo
T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation
July 19, 2024
Auteurs: Kaiyue Sun, Kaiyi Huang, Xian Liu, Yue Wu, Zihan Xu, Zhenguo Li, Xihui Liu
cs.AI
Résumé
Les modèles de génération texte-vidéo (T2V) ont progressé de manière significative, mais leur capacité à composer différents objets, attributs, actions et mouvements dans une vidéo reste peu explorée. Les benchmarks précédents en génération texte-vidéo négligent également cette capacité cruciale pour l'évaluation. Dans ce travail, nous menons la première étude systématique sur la génération texte-vidéo compositionnelle. Nous proposons T2V-CompBench, le premier benchmark spécifiquement conçu pour la génération texte-vidéo compositionnelle. T2V-CompBench englobe divers aspects de la compositionnalité, incluant la liaison cohérente des attributs, la liaison dynamique des attributs, les relations spatiales, la liaison des mouvements, la liaison des actions, les interactions entre objets, et la numératie générative. Nous concevons également avec soin des métriques d'évaluation basées sur des modèles de langage multimodaux (MLLM), des métriques basées sur la détection, et des métriques basées sur le suivi, qui reflètent mieux la qualité de la génération texte-vidéo compositionnelle pour sept catégories proposées avec 700 prompts texte. L'efficacité des métriques proposées est vérifiée par leur corrélation avec les évaluations humaines. Nous évaluons également divers modèles génératifs texte-vidéo et effectuons une analyse approfondie à travers différents modèles et différentes catégories compositionnelles. Nous constatons que la génération texte-vidéo compositionnelle est très difficile pour les modèles actuels, et nous espérons que notre initiative éclairera les recherches futures dans cette direction.
English
Text-to-video (T2V) generation models have advanced significantly, yet their
ability to compose different objects, attributes, actions, and motions into a
video remains unexplored. Previous text-to-video benchmarks also neglect this
important ability for evaluation. In this work, we conduct the first systematic
study on compositional text-to-video generation. We propose T2V-CompBench, the
first benchmark tailored for compositional text-to-video generation.
T2V-CompBench encompasses diverse aspects of compositionality, including
consistent attribute binding, dynamic attribute binding, spatial relationships,
motion binding, action binding, object interactions, and generative numeracy.
We further carefully design evaluation metrics of MLLM-based metrics,
detection-based metrics, and tracking-based metrics, which can better reflect
the compositional text-to-video generation quality of seven proposed categories
with 700 text prompts. The effectiveness of the proposed metrics is verified by
correlation with human evaluations. We also benchmark various text-to-video
generative models and conduct in-depth analysis across different models and
different compositional categories. We find that compositional text-to-video
generation is highly challenging for current models, and we hope that our
attempt will shed light on future research in this direction.Summary
AI-Generated Summary