Modelli Efficienti di Diffusione Video tramite Decomposizione Contenuto-Frame in Latenti di Movimento
Efficient Video Diffusion Models via Content-Frame Motion-Latent Decomposition
March 21, 2024
Autori: Sihyun Yu, Weili Nie, De-An Huang, Boyi Li, Jinwoo Shin, Anima Anandkumar
cs.AI
Abstract
I modelli di diffusione video hanno recentemente compiuto notevoli progressi nella qualità della generazione, ma sono ancora limitati dagli elevati requisiti di memoria e computazione. Ciò accade perché gli attuali modelli di diffusione video tentano spesso di elaborare direttamente video ad alta dimensionalità. Per affrontare questo problema, proponiamo il Content-Motion Latent Diffusion Model (CMD), una nuova ed efficiente estensione dei modelli di diffusione di immagini pre-addestrati per la generazione di video. Nello specifico, proponiamo un autoencoder che codifica in modo sintetico un video come una combinazione di un frame di contenuto (simile a un'immagine) e una rappresentazione latente del movimento a bassa dimensionalità. Il primo rappresenta il contenuto comune, mentre il secondo rappresenta il movimento sottostante nel video. Generiamo il frame di contenuto attraverso il fine-tuning di un modello di diffusione di immagini pre-addestrato, e la rappresentazione latente del movimento addestrando un nuovo modello di diffusione leggero. Un'innovazione chiave qui è la progettazione di uno spazio latente compatto che può sfruttare direttamente un modello di diffusione di immagini pre-addestrato, un approccio non adottato nei precedenti modelli di diffusione video latenti. Ciò porta a una generazione di qualità significativamente migliore e a costi computazionali ridotti. Ad esempio, CMD può campionare un video 7,7 volte più velocemente rispetto ai metodi precedenti, generando un video con risoluzione 512x1024 e lunghezza 16 in 3,1 secondi. Inoltre, CMD raggiunge un punteggio FVD di 212,7 su WebVid-10M, migliorando del 27,3% il precedente stato dell'arte di 292,4.
English
Video diffusion models have recently made great progress in generation
quality, but are still limited by the high memory and computational
requirements. This is because current video diffusion models often attempt to
process high-dimensional videos directly. To tackle this issue, we propose
content-motion latent diffusion model (CMD), a novel efficient extension of
pretrained image diffusion models for video generation. Specifically, we
propose an autoencoder that succinctly encodes a video as a combination of a
content frame (like an image) and a low-dimensional motion latent
representation. The former represents the common content, and the latter
represents the underlying motion in the video, respectively. We generate the
content frame by fine-tuning a pretrained image diffusion model, and we
generate the motion latent representation by training a new lightweight
diffusion model. A key innovation here is the design of a compact latent space
that can directly utilizes a pretrained image diffusion model, which has not
been done in previous latent video diffusion models. This leads to considerably
better quality generation and reduced computational costs. For instance, CMD
can sample a video 7.7times faster than prior approaches by generating a
video of 512times1024 resolution and length 16 in 3.1 seconds. Moreover, CMD
achieves an FVD score of 212.7 on WebVid-10M, 27.3% better than the previous
state-of-the-art of 292.4.