Modelos Eficientes de Difusão de Vídeo via Decomposição de Movimento-Latente em Quadros de Conteúdo
Efficient Video Diffusion Models via Content-Frame Motion-Latent Decomposition
March 21, 2024
Autores: Sihyun Yu, Weili Nie, De-An Huang, Boyi Li, Jinwoo Shin, Anima Anandkumar
cs.AI
Resumo
Os modelos de difusão de vídeo recentemente fizeram grandes avanços na qualidade de geração, mas ainda são limitados pelos altos requisitos de memória e computação. Isso ocorre porque os modelos atuais de difusão de vídeo frequentemente tentam processar vídeos de alta dimensão diretamente. Para resolver esse problema, propomos o modelo de difusão latente de conteúdo-movimento (CMD), uma extensão eficiente e inovadora de modelos de difusão de imagem pré-treinados para geração de vídeos. Especificamente, propomos um autoencoder que codifica de forma sucinta um vídeo como uma combinação de um quadro de conteúdo (semelhante a uma imagem) e uma representação latente de movimento de baixa dimensão. O primeiro representa o conteúdo comum, e o segundo representa o movimento subjacente no vídeo, respectivamente. Geramos o quadro de conteúdo ajustando um modelo de difusão de imagem pré-treinado, e geramos a representação latente de movimento treinando um novo modelo de difusão leve. Uma inovação chave aqui é o design de um espaço latente compacto que pode utilizar diretamente um modelo de difusão de imagem pré-treinado, o que não foi feito em modelos anteriores de difusão latente de vídeo. Isso resulta em uma geração de qualidade consideravelmente melhor e custos computacionais reduzidos. Por exemplo, o CMD pode amostrar um vídeo 7,7 vezes mais rápido do que abordagens anteriores, gerando um vídeo de resolução 512x1024 e comprimento 16 em 3,1 segundos. Além disso, o CMD alcança um score FVD de 212,7 no WebVid-10M, 27,3% melhor que o estado da arte anterior de 292,4.
English
Video diffusion models have recently made great progress in generation
quality, but are still limited by the high memory and computational
requirements. This is because current video diffusion models often attempt to
process high-dimensional videos directly. To tackle this issue, we propose
content-motion latent diffusion model (CMD), a novel efficient extension of
pretrained image diffusion models for video generation. Specifically, we
propose an autoencoder that succinctly encodes a video as a combination of a
content frame (like an image) and a low-dimensional motion latent
representation. The former represents the common content, and the latter
represents the underlying motion in the video, respectively. We generate the
content frame by fine-tuning a pretrained image diffusion model, and we
generate the motion latent representation by training a new lightweight
diffusion model. A key innovation here is the design of a compact latent space
that can directly utilizes a pretrained image diffusion model, which has not
been done in previous latent video diffusion models. This leads to considerably
better quality generation and reduced computational costs. For instance, CMD
can sample a video 7.7times faster than prior approaches by generating a
video of 512times1024 resolution and length 16 in 3.1 seconds. Moreover, CMD
achieves an FVD score of 212.7 on WebVid-10M, 27.3% better than the previous
state-of-the-art of 292.4.