콘텐츠 프레임과 모션 잠재 공간 분해를 통한 효율적인 비디오 확산 모델
Efficient Video Diffusion Models via Content-Frame Motion-Latent Decomposition
March 21, 2024
저자: Sihyun Yu, Weili Nie, De-An Huang, Boyi Li, Jinwoo Shin, Anima Anandkumar
cs.AI
초록
비디오 확산 모델은 최근 생성 품질 면에서 큰 진전을 이루었지만, 여전히 높은 메모리와 계산 요구량으로 인해 제약을 받고 있습니다. 이는 현재의 비디오 확산 모델들이 고차원 비디오를 직접 처리하려고 시도하기 때문입니다. 이 문제를 해결하기 위해, 우리는 사전 훈련된 이미지 확산 모델을 비디오 생성에 효율적으로 확장한 새로운 방법인 콘텐츠-모션 잠재 확산 모델(CMD)을 제안합니다. 구체적으로, 우리는 비디오를 콘텐츠 프레임(이미지와 유사)과 저차원 모션 잠재 표현의 조합으로 간결하게 인코딩하는 오토인코더를 제안합니다. 전자는 공통 콘텐츠를 나타내고, 후자는 비디오의 기본 모션을 각각 나타냅니다. 콘텐츠 프레임은 사전 훈련된 이미지 확산 모델을 미세 조정하여 생성하고, 모션 잠재 표현은 새로운 경량 확산 모델을 훈련하여 생성합니다. 여기서 핵심 혁신은 사전 훈련된 이미지 확산 모델을 직접 활용할 수 있는 컴팩트한 잠재 공간의 설계로, 이는 기존의 잠재 비디오 확산 모델에서는 시도되지 않았던 접근 방식입니다. 이를 통해 훨씬 더 나은 품질의 생성과 계산 비용의 감소를 달성할 수 있습니다. 예를 들어, CMD는 512×1024 해상도와 길이 16의 비디오를 3.1초 만에 생성함으로써 기존 방법보다 7.7배 빠르게 샘플링할 수 있습니다. 또한, CMD는 WebVid-10M에서 212.7의 FVD 점수를 달성하여, 이전 최고 기록인 292.4보다 27.3% 더 우수한 성능을 보입니다.
English
Video diffusion models have recently made great progress in generation
quality, but are still limited by the high memory and computational
requirements. This is because current video diffusion models often attempt to
process high-dimensional videos directly. To tackle this issue, we propose
content-motion latent diffusion model (CMD), a novel efficient extension of
pretrained image diffusion models for video generation. Specifically, we
propose an autoencoder that succinctly encodes a video as a combination of a
content frame (like an image) and a low-dimensional motion latent
representation. The former represents the common content, and the latter
represents the underlying motion in the video, respectively. We generate the
content frame by fine-tuning a pretrained image diffusion model, and we
generate the motion latent representation by training a new lightweight
diffusion model. A key innovation here is the design of a compact latent space
that can directly utilizes a pretrained image diffusion model, which has not
been done in previous latent video diffusion models. This leads to considerably
better quality generation and reduced computational costs. For instance, CMD
can sample a video 7.7times faster than prior approaches by generating a
video of 512times1024 resolution and length 16 in 3.1 seconds. Moreover, CMD
achieves an FVD score of 212.7 on WebVid-10M, 27.3% better than the previous
state-of-the-art of 292.4.Summary
AI-Generated Summary