T2V-CompBench: Um Benchmark Abrangente para Geração de Texto-para-Vídeo Composicional
T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation
July 19, 2024
Autores: Kaiyue Sun, Kaiyi Huang, Xian Liu, Yue Wu, Zihan Xu, Zhenguo Li, Xihui Liu
cs.AI
Resumo
Os modelos de geração de texto para vídeo (T2V) avançaram significativamente, no entanto, sua capacidade de compor diferentes objetos, atributos, ações e movimentos em um vídeo permanece inexplorada. Benchmarks anteriores de texto para vídeo também negligenciam essa habilidade importante para avaliação. Neste trabalho, realizamos o primeiro estudo sistemático sobre geração de texto para vídeo de forma composicional. Propomos o T2V-CompBench, o primeiro benchmark adaptado para geração de texto para vídeo de forma composicional. O T2V-CompBench abrange diversos aspectos da composicionalidade, incluindo vinculação consistente de atributos, vinculação dinâmica de atributos, relacionamentos espaciais, vinculação de movimento, vinculação de ação, interações de objetos e numeracia generativa. Além disso, projetamos cuidadosamente métricas de avaliação baseadas em MLLM, métricas baseadas em detecção e métricas baseadas em rastreamento, que podem refletir melhor a qualidade da geração de texto para vídeo de forma composicional em sete categorias propostas com 700 prompts de texto. A eficácia das métricas propostas é verificada pela correlação com avaliações humanas. Também comparamos vários modelos generativos de texto para vídeo e realizamos uma análise aprofundada entre diferentes modelos e diferentes categorias composicionais. Constatamos que a geração de texto para vídeo de forma composicional é altamente desafiadora para os modelos atuais, e esperamos que nossa tentativa ilumine futuras pesquisas nessa direção.
English
Text-to-video (T2V) generation models have advanced significantly, yet their
ability to compose different objects, attributes, actions, and motions into a
video remains unexplored. Previous text-to-video benchmarks also neglect this
important ability for evaluation. In this work, we conduct the first systematic
study on compositional text-to-video generation. We propose T2V-CompBench, the
first benchmark tailored for compositional text-to-video generation.
T2V-CompBench encompasses diverse aspects of compositionality, including
consistent attribute binding, dynamic attribute binding, spatial relationships,
motion binding, action binding, object interactions, and generative numeracy.
We further carefully design evaluation metrics of MLLM-based metrics,
detection-based metrics, and tracking-based metrics, which can better reflect
the compositional text-to-video generation quality of seven proposed categories
with 700 text prompts. The effectiveness of the proposed metrics is verified by
correlation with human evaluations. We also benchmark various text-to-video
generative models and conduct in-depth analysis across different models and
different compositional categories. We find that compositional text-to-video
generation is highly challenging for current models, and we hope that our
attempt will shed light on future research in this direction.Summary
AI-Generated Summary