LAMP : Apprendre un Modèle de Mouvement pour la Génération de Vidéo Basée sur Peu d'Exemples
LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation
October 16, 2023
Auteurs: Ruiqi Wu, Liangyu Chen, Tong Yang, Chunle Guo, Chongyi Li, Xiangyu Zhang
cs.AI
Résumé
Avec les progrès impressionnants dans la génération d'images à partir de texte basée sur la diffusion, l'extension de cette puissante capacité générative au domaine texte-vidéo suscite un intérêt considérable. Les méthodes existantes nécessitent soit des paires texte-vidéo à grande échelle et des ressources d'entraînement importantes, soit l'apprentissage de mouvements parfaitement alignés avec des vidéos modèles. Il est difficile de trouver un équilibre entre le degré de liberté de génération et les coûts en ressources pour la génération vidéo. Dans notre étude, nous présentons un cadre d'ajustement basé sur peu d'exemples, LAMP, qui permet à un modèle de diffusion texte-image d'apprendre un motif de mouvement spécifique avec 8 à 16 vidéos sur un seul GPU. Plus précisément, nous concevons un pipeline conditionné par la première image, utilisant un modèle texte-image prêt à l'emploi pour la génération de contenu, afin que notre modèle de diffusion vidéo ajusté se concentre principalement sur l'apprentissage du mouvement. Les techniques bien développées de génération texte-image peuvent fournir un contenu visuellement attrayant et diversifié comme conditions de génération, ce qui améliore considérablement la qualité vidéo et la liberté de génération. Pour capturer les caractéristiques de la dimension temporelle, nous étendons les couches de convolution 2D pré-entraînées du modèle T2I à nos nouvelles couches d'apprentissage spatio-temporel et modifions les blocs d'attention au niveau temporel. De plus, nous développons une astuce d'inférence efficace, l'échantillonnage de bruit partagé, qui peut améliorer la stabilité des vidéos avec des coûts de calcul réduits. Notre méthode peut également être appliquée de manière flexible à d'autres tâches, comme l'animation d'images du monde réel et l'édition vidéo. Des expériences approfondies démontrent que LAMP peut apprendre efficacement le motif de mouvement sur des données limitées et générer des vidéos de haute qualité. Le code et les modèles sont disponibles à l'adresse https://rq-wu.github.io/projects/LAMP.
English
With the impressive progress in diffusion-based text-to-image generation,
extending such powerful generative ability to text-to-video raises enormous
attention. Existing methods either require large-scale text-video pairs and a
large number of training resources or learn motions that are precisely aligned
with template videos. It is non-trivial to balance a trade-off between the
degree of generation freedom and the resource costs for video generation. In
our study, we present a few-shot-based tuning framework, LAMP, which enables
text-to-image diffusion model Learn A specific Motion Pattern with 8~16 videos
on a single GPU. Specifically, we design a first-frame-conditioned pipeline
that uses an off-the-shelf text-to-image model for content generation so that
our tuned video diffusion model mainly focuses on motion learning. The
well-developed text-to-image techniques can provide visually pleasing and
diverse content as generation conditions, which highly improves video quality
and generation freedom. To capture the features of temporal dimension, we
expand the pretrained 2D convolution layers of the T2I model to our novel
temporal-spatial motion learning layers and modify the attention blocks to the
temporal level. Additionally, we develop an effective inference trick,
shared-noise sampling, which can improve the stability of videos with
computational costs. Our method can also be flexibly applied to other tasks,
e.g. real-world image animation and video editing. Extensive experiments
demonstrate that LAMP can effectively learn the motion pattern on limited data
and generate high-quality videos. The code and models are available at
https://rq-wu.github.io/projects/LAMP.