ChatPaper.aiChatPaper

LAMP: Leer een Bewegingspatroon voor Few-Shot-Gebaseerde Videogeneratie

LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation

October 16, 2023
Auteurs: Ruiqi Wu, Liangyu Chen, Tong Yang, Chunle Guo, Chongyi Li, Xiangyu Zhang
cs.AI

Samenvatting

Met de indrukwekkende vooruitgang in diffusiegebaseerde tekst-naar-beeldgeneratie, trekt het uitbreiden van dergelijke krachtige generatieve mogelijkheden naar tekst-naar-video veel aandacht. Bestaande methoden vereisen ofwel grootschalige tekst-video-paren en een groot aantal trainingsbronnen, ofwel leren bewegingen die precies zijn afgestemd op sjabloonvideo's. Het is niet triviaal om een balans te vinden tussen de mate van generatievrijheid en de resourcekosten voor videogeneratie. In onze studie presenteren we een few-shot-gebaseerd afstemmingsframework, LAMP, dat een tekst-naar-beeld diffusiemodel in staat stelt om een specifiek bewegingspatroon te leren met 8~16 video's op een enkele GPU. Specifiek ontwerpen we een pipeline die is gebaseerd op het eerste frame, waarbij een kant-en-klaar tekst-naar-beeldmodel wordt gebruikt voor inhoudsgeneratie, zodat ons afgestemde videodiffusiemodel zich voornamelijk richt op het leren van beweging. De goed ontwikkelde tekst-naar-beeldtechnieken kunnen visueel aantrekkelijke en diverse inhoud bieden als generatievoorwaarden, wat de videokwaliteit en generatievrijheid aanzienlijk verbetert. Om de kenmerken van de temporele dimensie vast te leggen, breiden we de vooraf getrainde 2D-convolutielagen van het T2I-model uit naar onze nieuwe temporeel-ruimtelijke bewegingsleerlagen en passen we de aandachtblokken aan op het temporele niveau. Daarnaast ontwikkelen we een effectieve inferentietruc, gedeelde-ruisbemonstering, die de stabiliteit van video's kan verbeteren met rekenkosten. Onze methode kan ook flexibel worden toegepast op andere taken, zoals animatie van real-world beelden en videobewerking. Uitgebreide experimenten tonen aan dat LAMP effectief het bewegingspatroon kan leren op beperkte data en hoogwaardige video's kan genereren. De code en modellen zijn beschikbaar op https://rq-wu.github.io/projects/LAMP.
English
With the impressive progress in diffusion-based text-to-image generation, extending such powerful generative ability to text-to-video raises enormous attention. Existing methods either require large-scale text-video pairs and a large number of training resources or learn motions that are precisely aligned with template videos. It is non-trivial to balance a trade-off between the degree of generation freedom and the resource costs for video generation. In our study, we present a few-shot-based tuning framework, LAMP, which enables text-to-image diffusion model Learn A specific Motion Pattern with 8~16 videos on a single GPU. Specifically, we design a first-frame-conditioned pipeline that uses an off-the-shelf text-to-image model for content generation so that our tuned video diffusion model mainly focuses on motion learning. The well-developed text-to-image techniques can provide visually pleasing and diverse content as generation conditions, which highly improves video quality and generation freedom. To capture the features of temporal dimension, we expand the pretrained 2D convolution layers of the T2I model to our novel temporal-spatial motion learning layers and modify the attention blocks to the temporal level. Additionally, we develop an effective inference trick, shared-noise sampling, which can improve the stability of videos with computational costs. Our method can also be flexibly applied to other tasks, e.g. real-world image animation and video editing. Extensive experiments demonstrate that LAMP can effectively learn the motion pattern on limited data and generate high-quality videos. The code and models are available at https://rq-wu.github.io/projects/LAMP.
PDF92December 15, 2024