ChatPaper.aiChatPaper

T2V-CompBench: 구성적 텍스트-투-비디오 생성을 위한 포괄적 벤치마크

T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation

July 19, 2024
저자: Kaiyue Sun, Kaiyi Huang, Xian Liu, Yue Wu, Zihan Xu, Zhenguo Li, Xihui Liu
cs.AI

초록

텍스트-투-비디오(T2V) 생성 모델은 크게 발전했지만, 다양한 객체, 속성, 동작 및 움직임을 비디오로 구성하는 능력은 아직 탐구되지 않았습니다. 기존의 텍스트-투-비디오 벤치마크도 이러한 중요한 능력을 평가하는 데 소홀히 했습니다. 본 연구에서는 구성적 텍스트-투-비디오 생성에 대한 첫 번째 체계적인 연구를 수행합니다. 우리는 구성적 텍스트-투-비디오 생성을 위해 특별히 설계된 첫 번째 벤치마크인 T2V-CompBench를 제안합니다. T2V-CompBench는 일관된 속성 바인딩, 동적 속성 바인딩, 공간적 관계, 움직임 바인딩, 동작 바인딩, 객체 상호작용 및 생성적 수리 능력 등 다양한 구성적 측면을 포괄합니다. 또한, 우리는 MLLM 기반 메트릭, 탐지 기반 메트릭 및 추적 기반 메트릭을 신중하게 설계하여, 700개의 텍스트 프롬프트로 제안된 7개 범주의 구성적 텍스트-투-비디오 생성 품질을 더 잘 반영할 수 있도록 했습니다. 제안된 메트릭의 효과는 인간 평가와의 상관관계를 통해 검증되었습니다. 우리는 또한 다양한 텍스트-투-비디오 생성 모델을 벤치마크하고, 다양한 모델과 구성적 범주에 걸쳐 심층 분석을 수행했습니다. 우리는 구성적 텍스트-투-비디오 생성이 현재 모델들에게 매우 어려운 과제임을 발견했으며, 우리의 시도가 이 방향의 미래 연구에 빛을 비추기를 바랍니다.
English
Text-to-video (T2V) generation models have advanced significantly, yet their ability to compose different objects, attributes, actions, and motions into a video remains unexplored. Previous text-to-video benchmarks also neglect this important ability for evaluation. In this work, we conduct the first systematic study on compositional text-to-video generation. We propose T2V-CompBench, the first benchmark tailored for compositional text-to-video generation. T2V-CompBench encompasses diverse aspects of compositionality, including consistent attribute binding, dynamic attribute binding, spatial relationships, motion binding, action binding, object interactions, and generative numeracy. We further carefully design evaluation metrics of MLLM-based metrics, detection-based metrics, and tracking-based metrics, which can better reflect the compositional text-to-video generation quality of seven proposed categories with 700 text prompts. The effectiveness of the proposed metrics is verified by correlation with human evaluations. We also benchmark various text-to-video generative models and conduct in-depth analysis across different models and different compositional categories. We find that compositional text-to-video generation is highly challenging for current models, and we hope that our attempt will shed light on future research in this direction.

Summary

AI-Generated Summary

PDF274November 28, 2024