LAMP: Aprenda um Padrão de Movimento para Geração de Vídeo Baseada em Poucos Exemplos
LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation
October 16, 2023
Autores: Ruiqi Wu, Liangyu Chen, Tong Yang, Chunle Guo, Chongyi Li, Xiangyu Zhang
cs.AI
Resumo
Com os impressionantes avanços na geração de imagens baseada em difusão a partir de texto, estender essa poderosa capacidade generativa para a geração de vídeos a partir de texto tem atraído enorme atenção. Os métodos existentes exigem grandes conjuntos de pares texto-vídeo e uma quantidade significativa de recursos de treinamento ou aprendem movimentos que estão precisamente alinhados com vídeos de template. É um desafio equilibrar a relação entre o grau de liberdade de geração e os custos de recursos para a geração de vídeos. Em nosso estudo, apresentamos um framework de ajuste baseado em poucos exemplos, chamado LAMP, que permite que um modelo de difusão de texto para imagem aprenda um padrão de movimento específico com 8 a 16 vídeos em uma única GPU. Especificamente, projetamos um pipeline condicionado ao primeiro quadro, que utiliza um modelo de texto para imagem já disponível para a geração de conteúdo, de modo que nosso modelo de difusão de vídeo ajustado se concentre principalmente no aprendizado de movimento. As técnicas bem desenvolvidas de texto para imagem podem fornecer conteúdo visualmente agradável e diversificado como condições de geração, o que melhora significativamente a qualidade do vídeo e a liberdade de geração. Para capturar as características da dimensão temporal, expandimos as camadas de convolução 2D pré-treinadas do modelo T2I para nossas novas camadas de aprendizado de movimento espaço-temporal e modificamos os blocos de atenção para o nível temporal. Além disso, desenvolvemos um truque de inferência eficaz, chamado amostragem de ruído compartilhado, que pode melhorar a estabilidade dos vídeos com custos computacionais. Nosso método também pode ser aplicado de forma flexível a outras tarefas, como animação de imagens do mundo real e edição de vídeos. Experimentos extensivos demonstram que o LAMP pode aprender efetivamente o padrão de movimento com dados limitados e gerar vídeos de alta qualidade. O código e os modelos estão disponíveis em https://rq-wu.github.io/projects/LAMP.
English
With the impressive progress in diffusion-based text-to-image generation,
extending such powerful generative ability to text-to-video raises enormous
attention. Existing methods either require large-scale text-video pairs and a
large number of training resources or learn motions that are precisely aligned
with template videos. It is non-trivial to balance a trade-off between the
degree of generation freedom and the resource costs for video generation. In
our study, we present a few-shot-based tuning framework, LAMP, which enables
text-to-image diffusion model Learn A specific Motion Pattern with 8~16 videos
on a single GPU. Specifically, we design a first-frame-conditioned pipeline
that uses an off-the-shelf text-to-image model for content generation so that
our tuned video diffusion model mainly focuses on motion learning. The
well-developed text-to-image techniques can provide visually pleasing and
diverse content as generation conditions, which highly improves video quality
and generation freedom. To capture the features of temporal dimension, we
expand the pretrained 2D convolution layers of the T2I model to our novel
temporal-spatial motion learning layers and modify the attention blocks to the
temporal level. Additionally, we develop an effective inference trick,
shared-noise sampling, which can improve the stability of videos with
computational costs. Our method can also be flexibly applied to other tasks,
e.g. real-world image animation and video editing. Extensive experiments
demonstrate that LAMP can effectively learn the motion pattern on limited data
and generate high-quality videos. The code and models are available at
https://rq-wu.github.io/projects/LAMP.