DragNUWA: Fein abgesteuerte Steuerung der Videogenerierung durch Integration von Text, Bild und Trajektorie
DragNUWA: Fine-grained Control in Video Generation by Integrating Text, Image, and Trajectory
August 16, 2023
Autoren: Shengming Yin, Chenfei Wu, Jian Liang, Jie Shi, Houqiang Li, Gong Ming, Nan Duan
cs.AI
Zusammenfassung
Die kontrollierbare Videogenerierung hat in den letzten Jahren erheblich an Aufmerksamkeit gewonnen. Dennoch bestehen zwei Hauptbeschränkungen fort: Erstens konzentrieren sich die meisten bestehenden Arbeiten entweder auf text-, bild- oder trajektorienbasierte Steuerung, was zu einer Unfähigkeit führt, eine feinkörnige Steuerung in Videos zu erreichen. Zweitens befindet sich die Forschung zur Trajektoriensteuerung noch in einem frühen Stadium, wobei die meisten Experimente auf einfachen Datensätzen wie Human3.6M durchgeführt werden. Diese Einschränkung begrenzt die Fähigkeit der Modelle, offenbereichsbezogene Bilder zu verarbeiten und komplexe gekrümmte Trajektorien effektiv zu handhaben. In diesem Artikel schlagen wir DragNUWA vor, ein offenbereichsbasiertes, diffusionsgestütztes Videogenerierungsmodell. Um das Problem der unzureichenden Kontrollgranularität in bestehenden Arbeiten zu lösen, führen wir gleichzeitig Text-, Bild- und Trajektorieninformationen ein, um eine feinkörnige Steuerung des Videoinhalts aus semantischer, räumlicher und zeitlicher Perspektive zu ermöglichen. Um das Problem der begrenzten offenbereichsbasierten Trajektoriensteuerung in der aktuellen Forschung zu beheben, schlagen wir eine Trajektorienmodellierung mit drei Aspekten vor: einen Trajektorien-Sampler (TS), um die offenbereichsbasierte Steuerung beliebiger Trajektorien zu ermöglichen, eine Multiskalen-Fusion (MF), um Trajektorien in verschiedenen Granularitäten zu steuern, und eine Adaptive Trainingsstrategie (AT), um konsistente Videos entlang von Trajektorien zu generieren. Unsere Experimente validieren die Wirksamkeit von DragNUWA und demonstrieren seine überlegene Leistung bei der feinkörnigen Steuerung in der Videogenerierung. Der Link zur Homepage lautet https://www.microsoft.com/en-us/research/project/dragnuwa/.
English
Controllable video generation has gained significant attention in recent
years. However, two main limitations persist: Firstly, most existing works
focus on either text, image, or trajectory-based control, leading to an
inability to achieve fine-grained control in videos. Secondly, trajectory
control research is still in its early stages, with most experiments being
conducted on simple datasets like Human3.6M. This constraint limits the models'
capability to process open-domain images and effectively handle complex curved
trajectories. In this paper, we propose DragNUWA, an open-domain
diffusion-based video generation model. To tackle the issue of insufficient
control granularity in existing works, we simultaneously introduce text, image,
and trajectory information to provide fine-grained control over video content
from semantic, spatial, and temporal perspectives. To resolve the problem of
limited open-domain trajectory control in current research, We propose
trajectory modeling with three aspects: a Trajectory Sampler (TS) to enable
open-domain control of arbitrary trajectories, a Multiscale Fusion (MF) to
control trajectories in different granularities, and an Adaptive Training (AT)
strategy to generate consistent videos following trajectories. Our experiments
validate the effectiveness of DragNUWA, demonstrating its superior performance
in fine-grained control in video generation. The homepage link is
https://www.microsoft.com/en-us/research/project/dragnuwa/