T2V-CompBench : Un Benchmark Complet pour la Génération Compositionnelle de Texte vers Vidéo

Résumé

Les modèles de génération texte-vidéo (T2V) ont progressé de manière significative, mais leur capacité à composer différents objets, attributs, actions et mouvements dans une vidéo reste peu explorée. Les benchmarks précédents en génération texte-vidéo négligent également cette capacité cruciale pour l'évaluation. Dans ce travail, nous menons la première étude systématique sur la génération texte-vidéo compositionnelle. Nous proposons T2V-CompBench, le premier benchmark spécifiquement conçu pour la génération texte-vidéo compositionnelle. T2V-CompBench englobe divers aspects de la compositionnalité, incluant la liaison cohérente des attributs, la liaison dynamique des attributs, les relations spatiales, la liaison des mouvements, la liaison des actions, les interactions entre objets, et la numératie générative. Nous concevons également avec soin des métriques d'évaluation basées sur des modèles de langage multimodaux (MLLM), des métriques basées sur la détection, et des métriques basées sur le suivi, qui reflètent mieux la qualité de la génération texte-vidéo compositionnelle pour sept catégories proposées avec 700 prompts texte. L'efficacité des métriques proposées est vérifiée par leur corrélation avec les évaluations humaines. Nous évaluons également divers modèles génératifs texte-vidéo et effectuons une analyse approfondie à travers différents modèles et différentes catégories compositionnelles. Nous constatons que la génération texte-vidéo compositionnelle est très difficile pour les modèles actuels, et nous espérons que notre initiative éclairera les recherches futures dans cette direction.

English

Text-to-video (T2V) generation models have advanced significantly, yet their ability to compose different objects, attributes, actions, and motions into a video remains unexplored. Previous text-to-video benchmarks also neglect this important ability for evaluation. In this work, we conduct the first systematic study on compositional text-to-video generation. We propose T2V-CompBench, the first benchmark tailored for compositional text-to-video generation. T2V-CompBench encompasses diverse aspects of compositionality, including consistent attribute binding, dynamic attribute binding, spatial relationships, motion binding, action binding, object interactions, and generative numeracy. We further carefully design evaluation metrics of MLLM-based metrics, detection-based metrics, and tracking-based metrics, which can better reflect the compositional text-to-video generation quality of seven proposed categories with 700 text prompts. The effectiveness of the proposed metrics is verified by correlation with human evaluations. We also benchmark various text-to-video generative models and conduct in-depth analysis across different models and different compositional categories. We find that compositional text-to-video generation is highly challenging for current models, and we hope that our attempt will shed light on future research in this direction.

T2V-CompBench : Un Benchmark Complet pour la Génération Compositionnelle de Texte vers Vidéo

T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation

Résumé

Summary

Support

Support