T2V-CompBench: Um Benchmark Abrangente para Geração de Texto-para-Vídeo Composicional

Resumo

Os modelos de geração de texto para vídeo (T2V) avançaram significativamente, no entanto, sua capacidade de compor diferentes objetos, atributos, ações e movimentos em um vídeo permanece inexplorada. Benchmarks anteriores de texto para vídeo também negligenciam essa habilidade importante para avaliação. Neste trabalho, realizamos o primeiro estudo sistemático sobre geração de texto para vídeo de forma composicional. Propomos o T2V-CompBench, o primeiro benchmark adaptado para geração de texto para vídeo de forma composicional. O T2V-CompBench abrange diversos aspectos da composicionalidade, incluindo vinculação consistente de atributos, vinculação dinâmica de atributos, relacionamentos espaciais, vinculação de movimento, vinculação de ação, interações de objetos e numeracia generativa. Além disso, projetamos cuidadosamente métricas de avaliação baseadas em MLLM, métricas baseadas em detecção e métricas baseadas em rastreamento, que podem refletir melhor a qualidade da geração de texto para vídeo de forma composicional em sete categorias propostas com 700 prompts de texto. A eficácia das métricas propostas é verificada pela correlação com avaliações humanas. Também comparamos vários modelos generativos de texto para vídeo e realizamos uma análise aprofundada entre diferentes modelos e diferentes categorias composicionais. Constatamos que a geração de texto para vídeo de forma composicional é altamente desafiadora para os modelos atuais, e esperamos que nossa tentativa ilumine futuras pesquisas nessa direção.

English

Text-to-video (T2V) generation models have advanced significantly, yet their ability to compose different objects, attributes, actions, and motions into a video remains unexplored. Previous text-to-video benchmarks also neglect this important ability for evaluation. In this work, we conduct the first systematic study on compositional text-to-video generation. We propose T2V-CompBench, the first benchmark tailored for compositional text-to-video generation. T2V-CompBench encompasses diverse aspects of compositionality, including consistent attribute binding, dynamic attribute binding, spatial relationships, motion binding, action binding, object interactions, and generative numeracy. We further carefully design evaluation metrics of MLLM-based metrics, detection-based metrics, and tracking-based metrics, which can better reflect the compositional text-to-video generation quality of seven proposed categories with 700 text prompts. The effectiveness of the proposed metrics is verified by correlation with human evaluations. We also benchmark various text-to-video generative models and conduct in-depth analysis across different models and different compositional categories. We find that compositional text-to-video generation is highly challenging for current models, and we hope that our attempt will shed light on future research in this direction.

T2V-CompBench: Um Benchmark Abrangente para Geração de Texto-para-Vídeo Composicional

T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation

Resumo

Summary

Support

Support