LAMP: Aprender un Patrón de Movimiento para la Generación de Vídeos Basada en Pocos Ejemplos
LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation
October 16, 2023
Autores: Ruiqi Wu, Liangyu Chen, Tong Yang, Chunle Guo, Chongyi Li, Xiangyu Zhang
cs.AI
Resumen
Con los impresionantes avances en la generación de imágenes basada en difusión a partir de texto, extender esta poderosa capacidad generativa al ámbito de texto a video ha captado una enorme atención. Los métodos existentes requieren ya sea pares de texto-video a gran escala y una cantidad considerable de recursos de entrenamiento, o bien aprenden movimientos que están precisamente alineados con videos plantilla. No es trivial equilibrar un compromiso entre el grado de libertad de generación y los costos de recursos para la generación de video. En nuestro estudio, presentamos un marco de ajuste basado en pocos ejemplos, LAMP, que permite a un modelo de difusión de texto a imagen aprender un patrón de movimiento específico con 8~16 videos en una sola GPU. Específicamente, diseñamos una canalización condicionada por el primer fotograma que utiliza un modelo de texto a imagen disponible comercialmente para la generación de contenido, de modo que nuestro modelo de difusión de video ajustado se enfoque principalmente en el aprendizaje de movimiento. Las técnicas bien desarrolladas de texto a imagen pueden proporcionar contenido visualmente atractivo y diverso como condiciones de generación, lo que mejora significativamente la calidad del video y la libertad de generación. Para capturar las características de la dimensión temporal, expandimos las capas de convolución 2D preentrenadas del modelo T2I a nuestras novedosas capas de aprendizaje de movimiento espacio-temporal y modificamos los bloques de atención al nivel temporal. Además, desarrollamos un truco de inferencia efectivo, el muestreo de ruido compartido, que puede mejorar la estabilidad de los videos con costos computacionales. Nuestro método también puede aplicarse de manera flexible a otras tareas, como la animación de imágenes del mundo real y la edición de videos. Experimentos extensos demuestran que LAMP puede aprender efectivamente el patrón de movimiento con datos limitados y generar videos de alta calidad. El código y los modelos están disponibles en https://rq-wu.github.io/projects/LAMP.
English
With the impressive progress in diffusion-based text-to-image generation,
extending such powerful generative ability to text-to-video raises enormous
attention. Existing methods either require large-scale text-video pairs and a
large number of training resources or learn motions that are precisely aligned
with template videos. It is non-trivial to balance a trade-off between the
degree of generation freedom and the resource costs for video generation. In
our study, we present a few-shot-based tuning framework, LAMP, which enables
text-to-image diffusion model Learn A specific Motion Pattern with 8~16 videos
on a single GPU. Specifically, we design a first-frame-conditioned pipeline
that uses an off-the-shelf text-to-image model for content generation so that
our tuned video diffusion model mainly focuses on motion learning. The
well-developed text-to-image techniques can provide visually pleasing and
diverse content as generation conditions, which highly improves video quality
and generation freedom. To capture the features of temporal dimension, we
expand the pretrained 2D convolution layers of the T2I model to our novel
temporal-spatial motion learning layers and modify the attention blocks to the
temporal level. Additionally, we develop an effective inference trick,
shared-noise sampling, which can improve the stability of videos with
computational costs. Our method can also be flexibly applied to other tasks,
e.g. real-world image animation and video editing. Extensive experiments
demonstrate that LAMP can effectively learn the motion pattern on limited data
and generate high-quality videos. The code and models are available at
https://rq-wu.github.io/projects/LAMP.