LAMP: Impara un Modello di Movimento per la Generazione di Video Basata su Few-Shot
LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation
October 16, 2023
Autori: Ruiqi Wu, Liangyu Chen, Tong Yang, Chunle Guo, Chongyi Li, Xiangyu Zhang
cs.AI
Abstract
Con i notevoli progressi nella generazione di immagini da testo basata su diffusione, estendere tale potente capacità generativa al testo-video sta suscitando enorme interesse. I metodi esistenti richiedono o grandi quantità di coppie testo-video e risorse di training significative, oppure apprendono movimenti perfettamente allineati con video template. È non banale bilanciare un compromesso tra il grado di libertà generativa e i costi delle risorse per la generazione video. Nel nostro studio, presentiamo un framework di tuning basato su few-shot, LAMP, che consente a un modello di diffusione testo-immagine di apprendere uno specifico pattern di movimento con 8~16 video su una singola GPU. Nello specifico, progettiamo una pipeline condizionata al primo fotogramma che utilizza un modello testo-immagine preesistente per la generazione del contenuto, in modo che il nostro modello di diffusione video sintonizzato si concentri principalmente sull'apprendimento del movimento. Le tecniche testo-immagine ben sviluppate possono fornire contenuti visivamente piacevoli e diversificati come condizioni di generazione, migliorando notevolmente la qualità video e la libertà generativa. Per catturare le caratteristiche della dimensione temporale, espandiamo i livelli di convoluzione 2D pre-addestrati del modello T2I ai nostri nuovi livelli di apprendimento del movimento spazio-temporale e modifichiamo i blocchi di attenzione a livello temporale. Inoltre, sviluppiamo un efficace trucco di inferenza, il campionamento con rumore condiviso, che può migliorare la stabilità dei video con costi computazionali. Il nostro metodo può essere applicato in modo flessibile anche ad altri task, come l'animazione di immagini del mondo reale e l'editing video. Esperimenti estensivi dimostrano che LAMP può apprendere efficacemente il pattern di movimento su dati limitati e generare video di alta qualità. Il codice e i modelli sono disponibili su https://rq-wu.github.io/projects/LAMP.
English
With the impressive progress in diffusion-based text-to-image generation,
extending such powerful generative ability to text-to-video raises enormous
attention. Existing methods either require large-scale text-video pairs and a
large number of training resources or learn motions that are precisely aligned
with template videos. It is non-trivial to balance a trade-off between the
degree of generation freedom and the resource costs for video generation. In
our study, we present a few-shot-based tuning framework, LAMP, which enables
text-to-image diffusion model Learn A specific Motion Pattern with 8~16 videos
on a single GPU. Specifically, we design a first-frame-conditioned pipeline
that uses an off-the-shelf text-to-image model for content generation so that
our tuned video diffusion model mainly focuses on motion learning. The
well-developed text-to-image techniques can provide visually pleasing and
diverse content as generation conditions, which highly improves video quality
and generation freedom. To capture the features of temporal dimension, we
expand the pretrained 2D convolution layers of the T2I model to our novel
temporal-spatial motion learning layers and modify the attention blocks to the
temporal level. Additionally, we develop an effective inference trick,
shared-noise sampling, which can improve the stability of videos with
computational costs. Our method can also be flexibly applied to other tasks,
e.g. real-world image animation and video editing. Extensive experiments
demonstrate that LAMP can effectively learn the motion pattern on limited data
and generate high-quality videos. The code and models are available at
https://rq-wu.github.io/projects/LAMP.