Modelos Eficientes de Difusión de Video mediante Descomposición de Latentes de Movimiento en Fotogramas de Contenido
Efficient Video Diffusion Models via Content-Frame Motion-Latent Decomposition
March 21, 2024
Autores: Sihyun Yu, Weili Nie, De-An Huang, Boyi Li, Jinwoo Shin, Anima Anandkumar
cs.AI
Resumen
Los modelos de difusión de video han logrado recientemente grandes avances en la calidad de generación, pero aún están limitados por los altos requisitos de memoria y computación. Esto se debe a que los modelos actuales de difusión de video a menudo intentan procesar videos de alta dimensionalidad directamente. Para abordar este problema, proponemos el modelo de difusión latente de contenido-movimiento (CMD, por sus siglas en inglés), una extensión eficiente y novedosa de modelos de difusión de imágenes preentrenados para la generación de video. Específicamente, proponemos un autocodificador que codifica de manera sucinta un video como una combinación de un marco de contenido (similar a una imagen) y una representación latente de movimiento de baja dimensionalidad. El primero representa el contenido común, mientras que el segundo representa el movimiento subyacente en el video, respectivamente. Generamos el marco de contenido ajustando un modelo de difusión de imágenes preentrenado, y generamos la representación latente de movimiento entrenando un nuevo modelo de difusión ligero. Una innovación clave aquí es el diseño de un espacio latente compacto que puede utilizar directamente un modelo de difusión de imágenes preentrenado, algo que no se había hecho en modelos previos de difusión latente de video. Esto conduce a una generación de calidad considerablemente mejor y a costos computacionales reducidos. Por ejemplo, CMD puede muestrear un video 7.7 veces más rápido que enfoques anteriores, generando un video de resolución 512x1024 y longitud 16 en 3.1 segundos. Además, CMD logra un puntaje FVD de 212.7 en WebVid-10M, un 27.3% mejor que el estado del arte anterior de 292.4.
English
Video diffusion models have recently made great progress in generation
quality, but are still limited by the high memory and computational
requirements. This is because current video diffusion models often attempt to
process high-dimensional videos directly. To tackle this issue, we propose
content-motion latent diffusion model (CMD), a novel efficient extension of
pretrained image diffusion models for video generation. Specifically, we
propose an autoencoder that succinctly encodes a video as a combination of a
content frame (like an image) and a low-dimensional motion latent
representation. The former represents the common content, and the latter
represents the underlying motion in the video, respectively. We generate the
content frame by fine-tuning a pretrained image diffusion model, and we
generate the motion latent representation by training a new lightweight
diffusion model. A key innovation here is the design of a compact latent space
that can directly utilizes a pretrained image diffusion model, which has not
been done in previous latent video diffusion models. This leads to considerably
better quality generation and reduced computational costs. For instance, CMD
can sample a video 7.7times faster than prior approaches by generating a
video of 512times1024 resolution and length 16 in 3.1 seconds. Moreover, CMD
achieves an FVD score of 212.7 on WebVid-10M, 27.3% better than the previous
state-of-the-art of 292.4.