Modèles de diffusion vidéo efficaces via la décomposition mouvement-latent des trames de contenu
Efficient Video Diffusion Models via Content-Frame Motion-Latent Decomposition
March 21, 2024
Auteurs: Sihyun Yu, Weili Nie, De-An Huang, Boyi Li, Jinwoo Shin, Anima Anandkumar
cs.AI
Résumé
Les modèles de diffusion vidéo ont récemment réalisé des progrès significatifs en termes de qualité de génération, mais restent limités par les exigences élevées en mémoire et en calcul. Cela s'explique par le fait que les modèles de diffusion vidéo actuels tentent souvent de traiter directement des vidéos de haute dimension. Pour résoudre ce problème, nous proposons le modèle de diffusion latente contenu-mouvement (CMD), une extension novatrice et efficace des modèles de diffusion d'images pré-entraînés pour la génération de vidéos. Plus précisément, nous proposons un autoencodeur qui encode succinctement une vidéo comme une combinaison d'une image de contenu (similaire à une image) et d'une représentation latente de mouvement de faible dimension. La première représente le contenu commun, tandis que la seconde représente le mouvement sous-jacent de la vidéo. Nous générons l'image de contenu en affinant un modèle de diffusion d'images pré-entraîné, et nous générons la représentation latente de mouvement en entraînant un nouveau modèle de diffusion léger. Une innovation clé ici est la conception d'un espace latent compact qui peut directement exploiter un modèle de diffusion d'images pré-entraîné, ce qui n'a pas été fait dans les modèles de diffusion vidéo latents précédents. Cela conduit à une génération de bien meilleure qualité et à des coûts de calcul réduits. Par exemple, CMD peut échantillonner une vidéo 7,7 fois plus rapidement que les approches précédentes en générant une vidéo de résolution 512x1024 et de longueur 16 en 3,1 secondes. De plus, CMD atteint un score FVD de 212,7 sur WebVid-10M, soit 27,3 % de mieux que le précédent état de l'art de 292,4.
English
Video diffusion models have recently made great progress in generation
quality, but are still limited by the high memory and computational
requirements. This is because current video diffusion models often attempt to
process high-dimensional videos directly. To tackle this issue, we propose
content-motion latent diffusion model (CMD), a novel efficient extension of
pretrained image diffusion models for video generation. Specifically, we
propose an autoencoder that succinctly encodes a video as a combination of a
content frame (like an image) and a low-dimensional motion latent
representation. The former represents the common content, and the latter
represents the underlying motion in the video, respectively. We generate the
content frame by fine-tuning a pretrained image diffusion model, and we
generate the motion latent representation by training a new lightweight
diffusion model. A key innovation here is the design of a compact latent space
that can directly utilizes a pretrained image diffusion model, which has not
been done in previous latent video diffusion models. This leads to considerably
better quality generation and reduced computational costs. For instance, CMD
can sample a video 7.7times faster than prior approaches by generating a
video of 512times1024 resolution and length 16 in 3.1 seconds. Moreover, CMD
achieves an FVD score of 212.7 on WebVid-10M, 27.3% better than the previous
state-of-the-art of 292.4.Summary
AI-Generated Summary