LAMP: Impara un Modello di Movimento per la Generazione di Video Basata su Few-Shot

Abstract

Con i notevoli progressi nella generazione di immagini da testo basata su diffusione, estendere tale potente capacità generativa al testo-video sta suscitando enorme interesse. I metodi esistenti richiedono o grandi quantità di coppie testo-video e risorse di training significative, oppure apprendono movimenti perfettamente allineati con video template. È non banale bilanciare un compromesso tra il grado di libertà generativa e i costi delle risorse per la generazione video. Nel nostro studio, presentiamo un framework di tuning basato su few-shot, LAMP, che consente a un modello di diffusione testo-immagine di apprendere uno specifico pattern di movimento con 8~16 video su una singola GPU. Nello specifico, progettiamo una pipeline condizionata al primo fotogramma che utilizza un modello testo-immagine preesistente per la generazione del contenuto, in modo che il nostro modello di diffusione video sintonizzato si concentri principalmente sull'apprendimento del movimento. Le tecniche testo-immagine ben sviluppate possono fornire contenuti visivamente piacevoli e diversificati come condizioni di generazione, migliorando notevolmente la qualità video e la libertà generativa. Per catturare le caratteristiche della dimensione temporale, espandiamo i livelli di convoluzione 2D pre-addestrati del modello T2I ai nostri nuovi livelli di apprendimento del movimento spazio-temporale e modifichiamo i blocchi di attenzione a livello temporale. Inoltre, sviluppiamo un efficace trucco di inferenza, il campionamento con rumore condiviso, che può migliorare la stabilità dei video con costi computazionali. Il nostro metodo può essere applicato in modo flessibile anche ad altri task, come l'animazione di immagini del mondo reale e l'editing video. Esperimenti estensivi dimostrano che LAMP può apprendere efficacemente il pattern di movimento su dati limitati e generare video di alta qualità. Il codice e i modelli sono disponibili su https://rq-wu.github.io/projects/LAMP.

English

With the impressive progress in diffusion-based text-to-image generation, extending such powerful generative ability to text-to-video raises enormous attention. Existing methods either require large-scale text-video pairs and a large number of training resources or learn motions that are precisely aligned with template videos. It is non-trivial to balance a trade-off between the degree of generation freedom and the resource costs for video generation. In our study, we present a few-shot-based tuning framework, LAMP, which enables text-to-image diffusion model Learn A specific Motion Pattern with 8~16 videos on a single GPU. Specifically, we design a first-frame-conditioned pipeline that uses an off-the-shelf text-to-image model for content generation so that our tuned video diffusion model mainly focuses on motion learning. The well-developed text-to-image techniques can provide visually pleasing and diverse content as generation conditions, which highly improves video quality and generation freedom. To capture the features of temporal dimension, we expand the pretrained 2D convolution layers of the T2I model to our novel temporal-spatial motion learning layers and modify the attention blocks to the temporal level. Additionally, we develop an effective inference trick, shared-noise sampling, which can improve the stability of videos with computational costs. Our method can also be flexibly applied to other tasks, e.g. real-world image animation and video editing. Extensive experiments demonstrate that LAMP can effectively learn the motion pattern on limited data and generate high-quality videos. The code and models are available at https://rq-wu.github.io/projects/LAMP.

LAMP: Impara un Modello di Movimento per la Generazione di Video Basata su Few-Shot

LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation

Abstract

Support