Effiziente Videodiffusionsmodelle durch Inhaltsbild-Bewegungs-Latenz-Zerlegung
Efficient Video Diffusion Models via Content-Frame Motion-Latent Decomposition
March 21, 2024
Autoren: Sihyun Yu, Weili Nie, De-An Huang, Boyi Li, Jinwoo Shin, Anima Anandkumar
cs.AI
Zusammenfassung
Video-Diffusionsmodelle haben in letzter Zeit große Fortschritte bei der Generierungsqualität gemacht, sind jedoch nach wie vor durch hohe Speicher- und Rechenanforderungen eingeschränkt. Dies liegt daran, dass aktuelle Video-Diffusionsmodelle oft versuchen, hochdimensionale Videos direkt zu verarbeiten. Um dieses Problem anzugehen, schlagen wir das Inhalts-Bewegungs-Latenz-Diffusionsmodell (CMD) vor, eine neuartige, effiziente Erweiterung vortrainierter Bild-Diffusionsmodelle für die Videogenerierung vor. Konkret schlagen wir einen Autoencoder vor, der ein Video prägnant als Kombination eines Inhaltsrahmens (wie ein Bild) und einer niederdimensionalen Bewegungs-Latenzrepräsentation codiert. Ersteres repräsentiert den gemeinsamen Inhalt, und letzteres repräsentiert die zugrunde liegende Bewegung im Video. Wir generieren den Inhaltsrahmen durch Feinabstimmung eines vortrainierten Bild-Diffusionsmodells, und wir generieren die Bewegungs-Latenzrepräsentation durch Training eines neuen, leichtgewichtigen Diffusionsmodells. Eine Schlüsselinnovation hierbei ist die Gestaltung eines kompakten Latenzraums, der ein vortrainiertes Bild-Diffusionsmodell direkt nutzt, was in früheren latenten Video-Diffusionsmodellen nicht erfolgt ist. Dies führt zu erheblich besserer Generierungsqualität und reduzierten Rechenkosten. CMD kann beispielsweise ein Video 7,7-mal schneller als bisherige Ansätze sampeln, indem es ein Video der Auflösung 512mal1024 und Länge 16 in 3,1 Sekunden generiert. Darüber hinaus erreicht CMD einen FVD-Score von 212,7 auf WebVid-10M, was um 27,3% besser ist als der bisherige Stand der Technik von 292,4.
English
Video diffusion models have recently made great progress in generation
quality, but are still limited by the high memory and computational
requirements. This is because current video diffusion models often attempt to
process high-dimensional videos directly. To tackle this issue, we propose
content-motion latent diffusion model (CMD), a novel efficient extension of
pretrained image diffusion models for video generation. Specifically, we
propose an autoencoder that succinctly encodes a video as a combination of a
content frame (like an image) and a low-dimensional motion latent
representation. The former represents the common content, and the latter
represents the underlying motion in the video, respectively. We generate the
content frame by fine-tuning a pretrained image diffusion model, and we
generate the motion latent representation by training a new lightweight
diffusion model. A key innovation here is the design of a compact latent space
that can directly utilizes a pretrained image diffusion model, which has not
been done in previous latent video diffusion models. This leads to considerably
better quality generation and reduced computational costs. For instance, CMD
can sample a video 7.7times faster than prior approaches by generating a
video of 512times1024 resolution and length 16 in 3.1 seconds. Moreover, CMD
achieves an FVD score of 212.7 on WebVid-10M, 27.3% better than the previous
state-of-the-art of 292.4.Summary
AI-Generated Summary