T2V-CompBench: Ein umfassender Benchmark für die kompositionelle Text-zu-Video-Generierung
T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation
July 19, 2024
Autoren: Kaiyue Sun, Kaiyi Huang, Xian Liu, Yue Wu, Zihan Xu, Zhenguo Li, Xihui Liu
cs.AI
Zusammenfassung
Die Modelle zur Generierung von Text-zu-Video (T2V) haben sich signifikant weiterentwickelt, jedoch bleibt ihre Fähigkeit, verschiedene Objekte, Attribute, Aktionen und Bewegungen in einem Video zu komponieren, unerforscht. Frühere Text-zu-Video-Benchmarks vernachlässigen auch diese wichtige Fähigkeit für die Bewertung. In dieser Arbeit führen wir die erste systematische Studie zur kompositorischen Text-zu-Video-Generierung durch. Wir schlagen T2V-CompBench vor, den ersten Benchmark, der speziell für die kompositorische Text-zu-Video-Generierung entwickelt wurde. T2V-CompBench umfasst verschiedene Aspekte der Kompositionalität, einschließlich konsistenter Attributbindung, dynamischer Attributbindung, räumlicher Beziehungen, Bewegungsbindung, Aktionsbindung, Objektinteraktionen und generativer Numerik. Wir entwerfen sorgfältig Evaluierungsmetriken basierend auf MLLM-Metriken, Detektionsmetriken und Tracking-Metriken, die die Qualität der kompositorischen Text-zu-Video-Generierung besser widerspiegeln können, und zwar in sieben vorgeschlagenen Kategorien mit 700 Texteingaben. Die Wirksamkeit der vorgeschlagenen Metriken wird durch Korrelationen mit menschlichen Bewertungen verifiziert. Wir führen außerdem Benchmarks verschiedener Modelle zur generativen Text-zu-Video-Erstellung durch und führen eine eingehende Analyse über verschiedene Modelle und verschiedene kompositorische Kategorien durch. Wir stellen fest, dass die kompositorische Text-zu-Video-Generierung für aktuelle Modelle äußerst herausfordernd ist, und hoffen, dass unser Versuch Licht auf zukünftige Forschung in diese Richtung werfen wird.
English
Text-to-video (T2V) generation models have advanced significantly, yet their
ability to compose different objects, attributes, actions, and motions into a
video remains unexplored. Previous text-to-video benchmarks also neglect this
important ability for evaluation. In this work, we conduct the first systematic
study on compositional text-to-video generation. We propose T2V-CompBench, the
first benchmark tailored for compositional text-to-video generation.
T2V-CompBench encompasses diverse aspects of compositionality, including
consistent attribute binding, dynamic attribute binding, spatial relationships,
motion binding, action binding, object interactions, and generative numeracy.
We further carefully design evaluation metrics of MLLM-based metrics,
detection-based metrics, and tracking-based metrics, which can better reflect
the compositional text-to-video generation quality of seven proposed categories
with 700 text prompts. The effectiveness of the proposed metrics is verified by
correlation with human evaluations. We also benchmark various text-to-video
generative models and conduct in-depth analysis across different models and
different compositional categories. We find that compositional text-to-video
generation is highly challenging for current models, and we hope that our
attempt will shed light on future research in this direction.Summary
AI-Generated Summary