ExVideo: 파라미터 효율적 사후 튜닝을 통한 비디오 확산 모델 확장
ExVideo: Extending Video Diffusion Models via Parameter-Efficient Post-Tuning
June 20, 2024
저자: Zhongjie Duan, Wenmeng Zhou, Cen Chen, Yaliang Li, Weining Qian
cs.AI
초록
최근 비디오 합성 기술의 발전이 큰 주목을 받고 있습니다. AnimateDiff와 Stable Video Diffusion과 같은 비디오 합성 모델들은 확산 모델을 활용해 동적 시각 콘텐츠를 생성하는 데 있어 실용적인 가능성을 입증했습니다. SORA의 등장은 비디오 생성 기술의 잠재력을 더욱 부각시켰습니다. 그러나 비디오 길이의 확장은 컴퓨팅 자원의 한계로 인해 제약을 받아왔습니다. 대부분의 기존 비디오 합성 모델들은 짧은 비디오 클립만 생성할 수 있습니다. 본 논문에서는 ExVideo라는 새로운 비디오 합성 모델의 사후 조정 방법론을 제안합니다. 이 접근법은 현재의 비디오 합성 모델들이 더 긴 시간 동안 콘텐츠를 생성할 수 있도록 하면서도 더 낮은 학습 비용을 유지할 수 있도록 설계되었습니다. 특히, 우리는 3D 컨볼루션, 시간적 어텐션, 위치 임베딩과 같은 일반적인 시간적 모델 아키텍처에 걸쳐 확장 전략을 각각 설계했습니다. 제안된 사후 조정 접근법의 효과를 평가하기 위해 Stable Video Diffusion 모델에 대한 확장 학습을 수행했습니다. 우리의 접근법은 모델이 원래 프레임 수의 최대 5배까지 생성할 수 있는 능력을 향상시키며, 40k 비디오로 구성된 데이터셋에서 단 1.5k GPU 시간의 학습만을 요구합니다. 중요한 점은, 비디오 길이의 상당한 증가가 모델의 본질적인 일반화 능력을 저해하지 않으며, 다양한 스타일과 해상도의 비디오 생성에서 그 장점을 보여준다는 것입니다. 우리는 소스 코드와 향상된 모델을 공개할 예정입니다.
English
Recently, advancements in video synthesis have attracted significant
attention. Video synthesis models such as AnimateDiff and Stable Video
Diffusion have demonstrated the practical applicability of diffusion models in
creating dynamic visual content. The emergence of SORA has further spotlighted
the potential of video generation technologies. Nonetheless, the extension of
video lengths has been constrained by the limitations in computational
resources. Most existing video synthesis models can only generate short video
clips. In this paper, we propose a novel post-tuning methodology for video
synthesis models, called ExVideo. This approach is designed to enhance the
capability of current video synthesis models, allowing them to produce content
over extended temporal durations while incurring lower training expenditures.
In particular, we design extension strategies across common temporal model
architectures respectively, including 3D convolution, temporal attention, and
positional embedding. To evaluate the efficacy of our proposed post-tuning
approach, we conduct extension training on the Stable Video Diffusion model.
Our approach augments the model's capacity to generate up to 5times its
original number of frames, requiring only 1.5k GPU hours of training on a
dataset comprising 40k videos. Importantly, the substantial increase in video
length doesn't compromise the model's innate generalization capabilities, and
the model showcases its advantages in generating videos of diverse styles and
resolutions. We will release the source code and the enhanced model publicly.Summary
AI-Generated Summary