VideoTetris: 구성적 텍스트-비디오 생성을 향하여
VideoTetris: Towards Compositional Text-to-Video Generation
June 6, 2024
저자: Ye Tian, Ling Yang, Haotian Yang, Yuan Gao, Yufan Deng, Jingmin Chen, Xintao Wang, Zhaochen Yu, Xin Tao, Pengfei Wan, Di Zhang, Bin Cui
cs.AI
초록
디퓨전 모델은 텍스트-투-비디오(T2V) 생성 분야에서 큰 성공을 거두었습니다. 그러나 기존 방법들은 다중 객체나 객체 수의 동적 변화를 포함하는 복잡한(긴) 비디오 생성 시나리오를 다룰 때 어려움에 직면할 수 있습니다. 이러한 한계를 해결하기 위해, 우리는 구성적 T2V 생성을 가능하게 하는 새로운 프레임워크인 VideoTetris를 제안합니다. 구체적으로, 우리는 공간적 및 시간적으로 디노이징 네트워크의 어텐션 맵을 조작하고 구성함으로써 복잡한 텍스트 의미를 정확히 따르는 시공간 구성적 디퓨전을 제안합니다. 또한, 우리는 모션 역학과 프롬프트 이해를 향상시키기 위한 강화된 비디오 데이터 전처리와 자동 회귀적 비디오 생성의 일관성을 개선하기 위한 새로운 참조 프레임 어텐션 메커니즘을 제안합니다. 광범위한 실험을 통해 우리의 VideoTetris가 구성적 T2V 생성에서 인상적인 질적 및 양적 결과를 달성함을 입증합니다. 코드는 https://github.com/YangLing0818/VideoTetris에서 확인할 수 있습니다.
English
Diffusion models have demonstrated great success in text-to-video (T2V)
generation. However, existing methods may face challenges when handling complex
(long) video generation scenarios that involve multiple objects or dynamic
changes in object numbers. To address these limitations, we propose
VideoTetris, a novel framework that enables compositional T2V generation.
Specifically, we propose spatio-temporal compositional diffusion to precisely
follow complex textual semantics by manipulating and composing the attention
maps of denoising networks spatially and temporally. Moreover, we propose an
enhanced video data preprocessing to enhance the training data regarding motion
dynamics and prompt understanding, equipped with a new reference frame
attention mechanism to improve the consistency of auto-regressive video
generation. Extensive experiments demonstrate that our VideoTetris achieves
impressive qualitative and quantitative results in compositional T2V
generation. Code is available at: https://github.com/YangLing0818/VideoTetrisSummary
AI-Generated Summary