DragNUWA: Fein abgesteuerte Steuerung der Videogenerierung durch Integration von Text, Bild und Trajektorie

papers.abstract

Die kontrollierbare Videogenerierung hat in den letzten Jahren erheblich an Aufmerksamkeit gewonnen. Dennoch bestehen zwei Hauptbeschränkungen fort: Erstens konzentrieren sich die meisten bestehenden Arbeiten entweder auf text-, bild- oder trajektorienbasierte Steuerung, was zu einer Unfähigkeit führt, eine feinkörnige Steuerung in Videos zu erreichen. Zweitens befindet sich die Forschung zur Trajektoriensteuerung noch in einem frühen Stadium, wobei die meisten Experimente auf einfachen Datensätzen wie Human3.6M durchgeführt werden. Diese Einschränkung begrenzt die Fähigkeit der Modelle, offenbereichsbezogene Bilder zu verarbeiten und komplexe gekrümmte Trajektorien effektiv zu handhaben. In diesem Artikel schlagen wir DragNUWA vor, ein offenbereichsbasiertes, diffusionsgestütztes Videogenerierungsmodell. Um das Problem der unzureichenden Kontrollgranularität in bestehenden Arbeiten zu lösen, führen wir gleichzeitig Text-, Bild- und Trajektorieninformationen ein, um eine feinkörnige Steuerung des Videoinhalts aus semantischer, räumlicher und zeitlicher Perspektive zu ermöglichen. Um das Problem der begrenzten offenbereichsbasierten Trajektoriensteuerung in der aktuellen Forschung zu beheben, schlagen wir eine Trajektorienmodellierung mit drei Aspekten vor: einen Trajektorien-Sampler (TS), um die offenbereichsbasierte Steuerung beliebiger Trajektorien zu ermöglichen, eine Multiskalen-Fusion (MF), um Trajektorien in verschiedenen Granularitäten zu steuern, und eine Adaptive Trainingsstrategie (AT), um konsistente Videos entlang von Trajektorien zu generieren. Unsere Experimente validieren die Wirksamkeit von DragNUWA und demonstrieren seine überlegene Leistung bei der feinkörnigen Steuerung in der Videogenerierung. Der Link zur Homepage lautet https://www.microsoft.com/en-us/research/project/dragnuwa/.

English

Controllable video generation has gained significant attention in recent years. However, two main limitations persist: Firstly, most existing works focus on either text, image, or trajectory-based control, leading to an inability to achieve fine-grained control in videos. Secondly, trajectory control research is still in its early stages, with most experiments being conducted on simple datasets like Human3.6M. This constraint limits the models' capability to process open-domain images and effectively handle complex curved trajectories. In this paper, we propose DragNUWA, an open-domain diffusion-based video generation model. To tackle the issue of insufficient control granularity in existing works, we simultaneously introduce text, image, and trajectory information to provide fine-grained control over video content from semantic, spatial, and temporal perspectives. To resolve the problem of limited open-domain trajectory control in current research, We propose trajectory modeling with three aspects: a Trajectory Sampler (TS) to enable open-domain control of arbitrary trajectories, a Multiscale Fusion (MF) to control trajectories in different granularities, and an Adaptive Training (AT) strategy to generate consistent videos following trajectories. Our experiments validate the effectiveness of DragNUWA, demonstrating its superior performance in fine-grained control in video generation. The homepage link is https://www.microsoft.com/en-us/research/project/dragnuwa/

DragNUWA: Fein abgesteuerte Steuerung der Videogenerierung durch Integration von Text, Bild und Trajektorie

DragNUWA: Fine-grained Control in Video Generation by Integrating Text, Image, and Trajectory

papers.abstract

Support