Modelos Eficientes de Difusão de Vídeo via Decomposição de Movimento-Latente em Quadros de Conteúdo

Resumo

Os modelos de difusão de vídeo recentemente fizeram grandes avanços na qualidade de geração, mas ainda são limitados pelos altos requisitos de memória e computação. Isso ocorre porque os modelos atuais de difusão de vídeo frequentemente tentam processar vídeos de alta dimensão diretamente. Para resolver esse problema, propomos o modelo de difusão latente de conteúdo-movimento (CMD), uma extensão eficiente e inovadora de modelos de difusão de imagem pré-treinados para geração de vídeos. Especificamente, propomos um autoencoder que codifica de forma sucinta um vídeo como uma combinação de um quadro de conteúdo (semelhante a uma imagem) e uma representação latente de movimento de baixa dimensão. O primeiro representa o conteúdo comum, e o segundo representa o movimento subjacente no vídeo, respectivamente. Geramos o quadro de conteúdo ajustando um modelo de difusão de imagem pré-treinado, e geramos a representação latente de movimento treinando um novo modelo de difusão leve. Uma inovação chave aqui é o design de um espaço latente compacto que pode utilizar diretamente um modelo de difusão de imagem pré-treinado, o que não foi feito em modelos anteriores de difusão latente de vídeo. Isso resulta em uma geração de qualidade consideravelmente melhor e custos computacionais reduzidos. Por exemplo, o CMD pode amostrar um vídeo 7,7 vezes mais rápido do que abordagens anteriores, gerando um vídeo de resolução 512x1024 e comprimento 16 em 3,1 segundos. Além disso, o CMD alcança um score FVD de 212,7 no WebVid-10M, 27,3% melhor que o estado da arte anterior de 292,4.

English

Video diffusion models have recently made great progress in generation quality, but are still limited by the high memory and computational requirements. This is because current video diffusion models often attempt to process high-dimensional videos directly. To tackle this issue, we propose content-motion latent diffusion model (CMD), a novel efficient extension of pretrained image diffusion models for video generation. Specifically, we propose an autoencoder that succinctly encodes a video as a combination of a content frame (like an image) and a low-dimensional motion latent representation. The former represents the common content, and the latter represents the underlying motion in the video, respectively. We generate the content frame by fine-tuning a pretrained image diffusion model, and we generate the motion latent representation by training a new lightweight diffusion model. A key innovation here is the design of a compact latent space that can directly utilizes a pretrained image diffusion model, which has not been done in previous latent video diffusion models. This leads to considerably better quality generation and reduced computational costs. For instance, CMD can sample a video 7.7times faster than prior approaches by generating a video of 512times1024 resolution and length 16 in 3.1 seconds. Moreover, CMD achieves an FVD score of 212.7 on WebVid-10M, 27.3% better than the previous state-of-the-art of 292.4.

Modelos Eficientes de Difusão de Vídeo via Decomposição de Movimento-Latente em Quadros de Conteúdo

Efficient Video Diffusion Models via Content-Frame Motion-Latent Decomposition

Resumo

Support