텍스트-투-비디오 생성을 위한 듀얼-스트림 확산 네트워크
Dual-Stream Diffusion Net for Text-to-Video Generation
August 16, 2023
저자: Binhui Liu, Xin Liu, Anbo Dai, Zhiyong Zeng, Zhen Cui, Jian Yang
cs.AI
초록
최근 확산 모델의 등장과 함께 텍스트-투-비디오 생성이 점점 더 많은 관심을 받고 있습니다. 그러나 중요한 문제점은 생성된 비디오가 종종 깜빡임과 아티팩트를 포함한다는 것입니다. 본 연구에서는 비디오 생성 시 내용 변화의 일관성을 개선하기 위해 이중 스트림 확산 네트워크(DSDN)를 제안합니다. 특히, 설계된 두 개의 확산 스트림인 비디오 콘텐츠와 모션 브랜치는 각자의 독립적인 공간에서 개별적으로 실행되어 개인화된 비디오 변형과 콘텐츠를 생성할 뿐만 아니라, 우리가 설계한 크로스-트랜스포머 상호작용 모듈을 통해 콘텐츠와 모션 도메인 간에 잘 정렬되어 생성된 비디오의 부드러움을 향상시킵니다. 또한, 비디오 모션 조작을 용이하게 하기 위해 모션 분해기와 결합기를 도입했습니다. 정성적 및 정량적 실험을 통해 우리의 방법이 더 적은 깜빡임으로 놀라운 연속 비디오를 생성할 수 있음을 입증했습니다.
English
With the emerging diffusion models, recently, text-to-video generation has
aroused increasing attention. But an important bottleneck therein is that
generative videos often tend to carry some flickers and artifacts. In this
work, we propose a dual-stream diffusion net (DSDN) to improve the consistency
of content variations in generating videos. In particular, the designed two
diffusion streams, video content and motion branches, could not only run
separately in their private spaces for producing personalized video variations
as well as content, but also be well-aligned between the content and motion
domains through leveraging our designed cross-transformer interaction module,
which would benefit the smoothness of generated videos. Besides, we also
introduce motion decomposer and combiner to faciliate the operation on video
motion. Qualitative and quantitative experiments demonstrate that our method
could produce amazing continuous videos with fewer flickers.