ExVideo: Estendendo Modelos de Difusão de Vídeo via Ajuste Pós-Treinamento Eficiente em Parâmetros
ExVideo: Extending Video Diffusion Models via Parameter-Efficient Post-Tuning
June 20, 2024
Autores: Zhongjie Duan, Wenmeng Zhou, Cen Chen, Yaliang Li, Weining Qian
cs.AI
Resumo
Recentemente, avanços na síntese de vídeo têm atraído atenção significativa. Modelos de síntese de vídeo, como AnimateDiff e Stable Video Diffusion, demonstraram a aplicabilidade prática dos modelos de difusão na criação de conteúdo visual dinâmico. O surgimento do SORA destacou ainda mais o potencial das tecnologias de geração de vídeo. No entanto, a extensão da duração dos vídeos tem sido limitada pelas restrições de recursos computacionais. A maioria dos modelos de síntese de vídeo existentes só consegue gerar clipes curtos. Neste artigo, propomos uma nova metodologia de pós-ajuste para modelos de síntese de vídeo, chamada ExVideo. Essa abordagem foi projetada para aprimorar a capacidade dos modelos atuais de síntese de vídeo, permitindo que eles produzam conteúdo por períodos temporais mais longos, ao mesmo tempo em que reduzem os custos de treinamento. Em particular, projetamos estratégias de extensão para arquiteturas de modelos temporais comuns, incluindo convolução 3D, atenção temporal e incorporação posicional. Para avaliar a eficácia da nossa abordagem de pós-ajuste, realizamos treinamento de extensão no modelo Stable Video Diffusion. Nossa abordagem aumenta a capacidade do modelo de gerar até 5 vezes o número original de quadros, exigindo apenas 1,5 mil horas de GPU em um conjunto de dados composto por 40 mil vídeos. Importante destacar que o aumento substancial na duração do vídeo não compromete as capacidades inatas de generalização do modelo, e o modelo demonstra suas vantagens na geração de vídeos de diversos estilos e resoluções. Disponibilizaremos publicamente o código-fonte e o modelo aprimorado.
English
Recently, advancements in video synthesis have attracted significant
attention. Video synthesis models such as AnimateDiff and Stable Video
Diffusion have demonstrated the practical applicability of diffusion models in
creating dynamic visual content. The emergence of SORA has further spotlighted
the potential of video generation technologies. Nonetheless, the extension of
video lengths has been constrained by the limitations in computational
resources. Most existing video synthesis models can only generate short video
clips. In this paper, we propose a novel post-tuning methodology for video
synthesis models, called ExVideo. This approach is designed to enhance the
capability of current video synthesis models, allowing them to produce content
over extended temporal durations while incurring lower training expenditures.
In particular, we design extension strategies across common temporal model
architectures respectively, including 3D convolution, temporal attention, and
positional embedding. To evaluate the efficacy of our proposed post-tuning
approach, we conduct extension training on the Stable Video Diffusion model.
Our approach augments the model's capacity to generate up to 5times its
original number of frames, requiring only 1.5k GPU hours of training on a
dataset comprising 40k videos. Importantly, the substantial increase in video
length doesn't compromise the model's innate generalization capabilities, and
the model showcases its advantages in generating videos of diverse styles and
resolutions. We will release the source code and the enhanced model publicly.