DragNUWA : Contrôle précis dans la génération vidéo par intégration de texte, d’image et de trajectoire

papers.abstract

La génération de vidéos contrôlables a suscité une attention considérable ces dernières années. Cependant, deux limitations principales persistent : Premièrement, la plupart des travaux existants se concentrent sur le contrôle basé soit sur le texte, soit sur l’image ou la trajectoire, ce qui entraîne une incapacité à obtenir un contrôle fin dans les vidéos. Deuxièmement, la recherche sur le contrôle des trajectoires en est encore à ses débuts, la majorité des expériences étant menées sur des ensembles de données simples comme Human3.6M. Cette contrainte limite la capacité des modèles à traiter des images de domaine ouvert et à gérer efficacement des trajectoires courbes complexes. Dans cet article, nous proposons DragNUWA, un modèle de génération de vidéos basé sur la diffusion et adapté aux domaines ouverts. Pour résoudre le problème de granularité de contrôle insuffisante dans les travaux existants, nous introduisons simultanément des informations textuelles, visuelles et de trajectoire afin de fournir un contrôle fin du contenu vidéo d’un point de vue sémantique, spatial et temporel. Pour résoudre le problème de contrôle limité des trajectoires en domaine ouvert dans la recherche actuelle, nous proposons une modélisation des trajectoires selon trois aspects : un Échantillonneur de Trajectoire (TS) pour permettre un contrôle en domaine ouvert de trajectoires arbitraires, une Fusion Multiscalaire (MF) pour contrôler les trajectoires à différentes granularités, et une stratégie d’Apprentissage Adaptatif (AT) pour générer des vidéos cohérentes suivant les trajectoires. Nos expériences valident l’efficacité de DragNUWA, démontrant ses performances supérieures en matière de contrôle fin dans la génération de vidéos. Le lien de la page d’accueil est https://www.microsoft.com/en-us/research/project/dragnuwa/.

English

Controllable video generation has gained significant attention in recent years. However, two main limitations persist: Firstly, most existing works focus on either text, image, or trajectory-based control, leading to an inability to achieve fine-grained control in videos. Secondly, trajectory control research is still in its early stages, with most experiments being conducted on simple datasets like Human3.6M. This constraint limits the models' capability to process open-domain images and effectively handle complex curved trajectories. In this paper, we propose DragNUWA, an open-domain diffusion-based video generation model. To tackle the issue of insufficient control granularity in existing works, we simultaneously introduce text, image, and trajectory information to provide fine-grained control over video content from semantic, spatial, and temporal perspectives. To resolve the problem of limited open-domain trajectory control in current research, We propose trajectory modeling with three aspects: a Trajectory Sampler (TS) to enable open-domain control of arbitrary trajectories, a Multiscale Fusion (MF) to control trajectories in different granularities, and an Adaptive Training (AT) strategy to generate consistent videos following trajectories. Our experiments validate the effectiveness of DragNUWA, demonstrating its superior performance in fine-grained control in video generation. The homepage link is https://www.microsoft.com/en-us/research/project/dragnuwa/

DragNUWA : Contrôle précis dans la génération vidéo par intégration de texte, d’image et de trajectoire

DragNUWA: Fine-grained Control in Video Generation by Integrating Text, Image, and Trajectory

papers.abstract

Support