Efficiënte Video-Diffusiemodellen via Content-Frame Motion-Latent Decompositie
Efficient Video Diffusion Models via Content-Frame Motion-Latent Decomposition
March 21, 2024
Auteurs: Sihyun Yu, Weili Nie, De-An Huang, Boyi Li, Jinwoo Shin, Anima Anandkumar
cs.AI
Samenvatting
Videodiffusiemodellen hebben recentelijk grote vooruitgang geboekt in de generatiekwaliteit, maar worden nog steeds beperkt door de hoge geheugen- en rekenvereisten. Dit komt doordat huidige videodiffusiemodellen vaak proberen om hoogdimensionale video's direct te verwerken. Om dit probleem aan te pakken, stellen we het content-motion latent diffusion model (CMD) voor, een nieuwe efficiënte uitbreiding van voorgetrainde beelddiffusiemodellen voor videogeneratie. Specifiek stellen we een autoencoder voor die een video beknopt codeert als een combinatie van een contentframe (zoals een afbeelding) en een laagdimensionale latente bewegingrepresentatie. Het eerste vertegenwoordigt de gemeenschappelijke inhoud, en het tweede vertegenwoordigt de onderliggende beweging in de video. We genereren het contentframe door een voorgetraind beelddiffusiemodel te finetunen, en we genereren de latente bewegingrepresentatie door een nieuw lichtgewicht diffusiemodel te trainen. Een belangrijke innovatie hier is het ontwerp van een compacte latente ruimte die direct gebruik kan maken van een voorgetraind beelddiffusiemodel, wat nog niet eerder is gedaan in eerdere latente videodiffusiemodellen. Dit leidt tot aanzienlijk betere generatiekwaliteit en lagere rekenkosten. Zo kan CMD bijvoorbeeld een video 7,7 keer sneller bemonsteren dan eerdere benaderingen door een video van 512x1024 resolutie en lengte 16 te genereren in 3,1 seconden. Bovendien behaalt CMD een FVD-score van 212,7 op WebVid-10M, wat 27,3% beter is dan de vorige state-of-the-art van 292,4.
English
Video diffusion models have recently made great progress in generation
quality, but are still limited by the high memory and computational
requirements. This is because current video diffusion models often attempt to
process high-dimensional videos directly. To tackle this issue, we propose
content-motion latent diffusion model (CMD), a novel efficient extension of
pretrained image diffusion models for video generation. Specifically, we
propose an autoencoder that succinctly encodes a video as a combination of a
content frame (like an image) and a low-dimensional motion latent
representation. The former represents the common content, and the latter
represents the underlying motion in the video, respectively. We generate the
content frame by fine-tuning a pretrained image diffusion model, and we
generate the motion latent representation by training a new lightweight
diffusion model. A key innovation here is the design of a compact latent space
that can directly utilizes a pretrained image diffusion model, which has not
been done in previous latent video diffusion models. This leads to considerably
better quality generation and reduced computational costs. For instance, CMD
can sample a video 7.7times faster than prior approaches by generating a
video of 512times1024 resolution and length 16 in 3.1 seconds. Moreover, CMD
achieves an FVD score of 212.7 on WebVid-10M, 27.3% better than the previous
state-of-the-art of 292.4.