DragNUWA : Contrôle précis dans la génération vidéo par intégration de texte, d’image et de trajectoire
DragNUWA: Fine-grained Control in Video Generation by Integrating Text, Image, and Trajectory
August 16, 2023
Auteurs: Shengming Yin, Chenfei Wu, Jian Liang, Jie Shi, Houqiang Li, Gong Ming, Nan Duan
cs.AI
Résumé
La génération de vidéos contrôlables a suscité une attention considérable ces dernières années. Cependant, deux limitations principales persistent : Premièrement, la plupart des travaux existants se concentrent sur le contrôle basé soit sur le texte, soit sur l’image ou la trajectoire, ce qui entraîne une incapacité à obtenir un contrôle fin dans les vidéos. Deuxièmement, la recherche sur le contrôle des trajectoires en est encore à ses débuts, la majorité des expériences étant menées sur des ensembles de données simples comme Human3.6M. Cette contrainte limite la capacité des modèles à traiter des images de domaine ouvert et à gérer efficacement des trajectoires courbes complexes. Dans cet article, nous proposons DragNUWA, un modèle de génération de vidéos basé sur la diffusion et adapté aux domaines ouverts. Pour résoudre le problème de granularité de contrôle insuffisante dans les travaux existants, nous introduisons simultanément des informations textuelles, visuelles et de trajectoire afin de fournir un contrôle fin du contenu vidéo d’un point de vue sémantique, spatial et temporel. Pour résoudre le problème de contrôle limité des trajectoires en domaine ouvert dans la recherche actuelle, nous proposons une modélisation des trajectoires selon trois aspects : un Échantillonneur de Trajectoire (TS) pour permettre un contrôle en domaine ouvert de trajectoires arbitraires, une Fusion Multiscalaire (MF) pour contrôler les trajectoires à différentes granularités, et une stratégie d’Apprentissage Adaptatif (AT) pour générer des vidéos cohérentes suivant les trajectoires. Nos expériences valident l’efficacité de DragNUWA, démontrant ses performances supérieures en matière de contrôle fin dans la génération de vidéos. Le lien de la page d’accueil est https://www.microsoft.com/en-us/research/project/dragnuwa/.
English
Controllable video generation has gained significant attention in recent
years. However, two main limitations persist: Firstly, most existing works
focus on either text, image, or trajectory-based control, leading to an
inability to achieve fine-grained control in videos. Secondly, trajectory
control research is still in its early stages, with most experiments being
conducted on simple datasets like Human3.6M. This constraint limits the models'
capability to process open-domain images and effectively handle complex curved
trajectories. In this paper, we propose DragNUWA, an open-domain
diffusion-based video generation model. To tackle the issue of insufficient
control granularity in existing works, we simultaneously introduce text, image,
and trajectory information to provide fine-grained control over video content
from semantic, spatial, and temporal perspectives. To resolve the problem of
limited open-domain trajectory control in current research, We propose
trajectory modeling with three aspects: a Trajectory Sampler (TS) to enable
open-domain control of arbitrary trajectories, a Multiscale Fusion (MF) to
control trajectories in different granularities, and an Adaptive Training (AT)
strategy to generate consistent videos following trajectories. Our experiments
validate the effectiveness of DragNUWA, demonstrating its superior performance
in fine-grained control in video generation. The homepage link is
https://www.microsoft.com/en-us/research/project/dragnuwa/