Make-Your-Video: 텍스트 및 구조적 지침을 활용한 맞춤형 비디오 생성
Make-Your-Video: Customized Video Generation Using Textual and Structural Guidance
June 1, 2023
저자: Jinbo Xing, Menghan Xia, Yuxin Liu, Yuechen Zhang, Yong Zhang, Yingqing He, Hanyuan Liu, Haoxin Chen, Xiaodong Cun, Xintao Wang, Ying Shan, Tien-Tsin Wong
cs.AI
초록
우리의 상상 속에 있는 사건이나 시나리오를 생생한 영상으로 만들어내는 것은 정말로 매혹적인 경험입니다. 최근 텍스트-투-비디오 합성 기술의 발전은 단순히 프롬프트만으로 이를 달성할 수 있는 가능성을 열어주었습니다. 텍스트는 전체 장면의 맥락을 전달하는 데 편리하지만, 정밀한 제어에는 부족할 수 있습니다. 본 논문에서는 텍스트를 맥락 설명으로, 그리고 모션 구조(예: 프레임별 깊이)를 구체적인 지침으로 활용하여 맞춤형 비디오 생성을 탐구합니다. 우리의 방법인 'Make-Your-Video'는 정적 이미지 합성을 위해 사전 학습된 잠재 확산 모델(Latent Diffusion Model)을 사용하고, 시간적 모듈을 도입하여 비디오 생성으로 확장하는 공동 조건부 비디오 생성을 포함합니다. 이 두 단계 학습 방식은 필요한 컴퓨팅 자원을 줄일 뿐만 아니라, 이미지 데이터셋에서 얻은 풍부한 개념을 비디오 생성에 전이함으로써 성능을 향상시킵니다. 또한, 간단하지만 효과적인 인과적 어텐션 마스크 전략을 사용하여 더 긴 비디오 합성을 가능하게 하고, 잠재적인 품질 저하를 효과적으로 완화합니다. 실험 결과는 우리의 방법이 기존 베이스라인 대비 시간적 일관성과 사용자 지침에 대한 충실도 측면에서 우수함을 보여줍니다. 또한, 우리의 모델은 실용적인 사용 가능성을 보여주는 여러 흥미로운 애플리케이션을 가능하게 합니다.
English
Creating a vivid video from the event or scenario in our imagination is a
truly fascinating experience. Recent advancements in text-to-video synthesis
have unveiled the potential to achieve this with prompts only. While text is
convenient in conveying the overall scene context, it may be insufficient to
control precisely. In this paper, we explore customized video generation by
utilizing text as context description and motion structure (e.g. frame-wise
depth) as concrete guidance. Our method, dubbed Make-Your-Video, involves
joint-conditional video generation using a Latent Diffusion Model that is
pre-trained for still image synthesis and then promoted for video generation
with the introduction of temporal modules. This two-stage learning scheme not
only reduces the computing resources required, but also improves the
performance by transferring the rich concepts available in image datasets
solely into video generation. Moreover, we use a simple yet effective causal
attention mask strategy to enable longer video synthesis, which mitigates the
potential quality degradation effectively. Experimental results show the
superiority of our method over existing baselines, particularly in terms of
temporal coherence and fidelity to users' guidance. In addition, our model
enables several intriguing applications that demonstrate potential for
practical usage.