ChatPaper.aiChatPaper

재사용 및 확산: 텍스트-투-비디오 생성을 위한 반복적 노이즈 제거

Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation

September 7, 2023
저자: Jiaxi Gu, Shicong Wang, Haoyu Zhao, Tianyi Lu, Xing Zhang, Zuxuan Wu, Songcen Xu, Wei Zhang, Yu-Gang Jiang, Hang Xu
cs.AI

초록

이미지 합성 분야에서 잠재 확산 모델(Latent Diffusion Models, LDMs)의 놀라운 성공에 영감을 받아, 우리는 텍스트-투-비디오 생성에 LDM을 적용하는 방법을 연구했습니다. 이는 모델 학습과 추론 과정에서 발생하는 계산 및 메모리 제약으로 인해 매우 어려운 과제입니다. 단일 LDM은 일반적으로 매우 제한된 수의 비디오 프레임만 생성할 수 있습니다. 기존의 일부 연구는 더 많은 비디오 프레임을 생성하기 위해 별도의 예측 모델에 초점을 맞추고 있지만, 이는 추가적인 학습 비용과 프레임 수준의 불안정성을 초래합니다. 본 논문에서는 LDM에 의해 이미 생성된 프레임을 기반으로 더 많은 프레임을 생성하기 위해 "Reuse and Diffuse"라는 프레임워크인 VidRD를 제안합니다. 소수의 프레임으로 구성된 초기 비디오 클립을 조건으로, 원래의 잠재 특징을 재사용하고 이전의 확산 과정을 따르는 방식으로 추가 프레임을 반복적으로 생성합니다. 또한, 픽셀 공간과 잠재 공간 간의 변환을 위해 사용되는 오토인코더의 디코더에 시간적 레이어를 주입하고, 이러한 레이어를 미세 조정하여 더 높은 시간적 일관성을 달성했습니다. 우리는 또한 동작 인식을 위한 비디오 데이터셋과 이미지-텍스트 데이터셋을 포함한 다양한 기존 데이터셋의 콘텐츠를 활용하여 비디오-텍스트 데이터를 구성하기 위한 일련의 전략을 제안합니다. 광범위한 실험을 통해 우리의 방법이 양적 및 질적 평가 모두에서 좋은 결과를 달성함을 보여줍니다. 우리의 프로젝트 페이지는 https://anonymous0x233.github.io/ReuseAndDiffuse/{여기}에서 확인할 수 있습니다.
English
Inspired by the remarkable success of Latent Diffusion Models (LDMs) for image synthesis, we study LDM for text-to-video generation, which is a formidable challenge due to the computational and memory constraints during both model training and inference. A single LDM is usually only capable of generating a very limited number of video frames. Some existing works focus on separate prediction models for generating more video frames, which suffer from additional training cost and frame-level jittering, however. In this paper, we propose a framework called "Reuse and Diffuse" dubbed VidRD to produce more frames following the frames already generated by an LDM. Conditioned on an initial video clip with a small number of frames, additional frames are iteratively generated by reusing the original latent features and following the previous diffusion process. Besides, for the autoencoder used for translation between pixel space and latent space, we inject temporal layers into its decoder and fine-tune these layers for higher temporal consistency. We also propose a set of strategies for composing video-text data that involve diverse content from multiple existing datasets including video datasets for action recognition and image-text datasets. Extensive experiments show that our method achieves good results in both quantitative and qualitative evaluations. Our project page is available https://anonymous0x233.github.io/ReuseAndDiffuse/{here}.
PDF60December 15, 2024