LAMP: Lerne ein Bewegungsmuster für Few-Shot-basierte Videogenerierung
LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation
October 16, 2023
Autoren: Ruiqi Wu, Liangyu Chen, Tong Yang, Chunle Guo, Chongyi Li, Xiangyu Zhang
cs.AI
Zusammenfassung
Mit den beeindruckenden Fortschritten in der diffusionsbasierten Text-zu-Bild-Generierung gewinnt die Erweiterung dieser leistungsstarken generativen Fähigkeit auf Text-zu-Video große Aufmerksamkeit. Bestehende Methoden erfordern entweder groß angelegte Text-Video-Paare und erhebliche Trainingsressourcen oder lernen Bewegungen, die präzise mit Vorlagenvideos abgestimmt sind. Es ist nicht trivial, einen Kompromiss zwischen dem Grad der Generierungsfreiheit und den Ressourcenkosten für die Videogenerierung zu finden. In unserer Studie präsentieren wir ein Few-Shot-basiertes Feinabstimmungsframework, LAMP, das es einem Text-zu-Bild-Diffusionsmodell ermöglicht, ein spezifisches Bewegungsmuster mit 8~16 Videos auf einer einzelnen GPU zu lernen. Konkret entwerfen wir eine Pipeline, die auf dem ersten Frame basiert und ein verfügbares Text-zu-Bild-Modell für die Inhaltsgenerierung verwendet, sodass unser angepasstes Video-Diffusionsmodell sich hauptsächlich auf das Bewegungslernen konzentriert. Die gut entwickelten Text-zu-Bild-Techniken können visuell ansprechende und vielfältige Inhalte als Generierungsbedingungen bereitstellen, was die Videoqualität und Generierungsfreiheit erheblich verbessert. Um die Merkmale der zeitlichen Dimension zu erfassen, erweitern wir die vortrainierten 2D-Faltungsschichten des T2I-Modells auf unsere neuartigen temporal-räumlichen Bewegungslernschichten und passen die Aufmerksamkeitsblöcke auf die zeitliche Ebene an. Zusätzlich entwickeln wir einen effektiven Inferenztrick, das Shared-Noise-Sampling, das die Stabilität von Videos bei geringen Rechenkosten verbessern kann. Unsere Methode kann auch flexibel auf andere Aufgaben angewendet werden, z.B. Animationen von realen Bildern und Videobearbeitung. Umfangreiche Experimente zeigen, dass LAMP effektiv das Bewegungsmuster mit begrenzten Daten lernen und hochwertige Videos generieren kann. Der Code und die Modelle sind unter https://rq-wu.github.io/projects/LAMP verfügbar.
English
With the impressive progress in diffusion-based text-to-image generation,
extending such powerful generative ability to text-to-video raises enormous
attention. Existing methods either require large-scale text-video pairs and a
large number of training resources or learn motions that are precisely aligned
with template videos. It is non-trivial to balance a trade-off between the
degree of generation freedom and the resource costs for video generation. In
our study, we present a few-shot-based tuning framework, LAMP, which enables
text-to-image diffusion model Learn A specific Motion Pattern with 8~16 videos
on a single GPU. Specifically, we design a first-frame-conditioned pipeline
that uses an off-the-shelf text-to-image model for content generation so that
our tuned video diffusion model mainly focuses on motion learning. The
well-developed text-to-image techniques can provide visually pleasing and
diverse content as generation conditions, which highly improves video quality
and generation freedom. To capture the features of temporal dimension, we
expand the pretrained 2D convolution layers of the T2I model to our novel
temporal-spatial motion learning layers and modify the attention blocks to the
temporal level. Additionally, we develop an effective inference trick,
shared-noise sampling, which can improve the stability of videos with
computational costs. Our method can also be flexibly applied to other tasks,
e.g. real-world image animation and video editing. Extensive experiments
demonstrate that LAMP can effectively learn the motion pattern on limited data
and generate high-quality videos. The code and models are available at
https://rq-wu.github.io/projects/LAMP.