DragNUWA: Controllo Fine-grained nella Generazione di Video attraverso l'Integrazione di Testo, Immagine e Traiettoria

Abstract

La generazione controllata di video ha attirato una significativa attenzione negli ultimi anni. Tuttavia, persistono due principali limitazioni: in primo luogo, la maggior parte dei lavori esistenti si concentra sul controllo basato su testo, immagini o traiettorie, portando a un'incapacità di ottenere un controllo fine nei video. In secondo luogo, la ricerca sul controllo delle traiettorie è ancora nelle sue fasi iniziali, con la maggior parte degli esperimenti condotti su dataset semplici come Human3.6M. Questo vincolo limita la capacità dei modelli di elaborare immagini di dominio aperto e gestire efficacemente traiettorie curve complesse. In questo articolo, proponiamo DragNUWA, un modello di generazione video basato su diffusione per dominio aperto. Per affrontare il problema dell'insufficiente granularità di controllo nei lavori esistenti, introduciamo simultaneamente informazioni testuali, visive e di traiettoria per fornire un controllo fine sul contenuto video da prospettive semantiche, spaziali e temporali. Per risolvere il problema del controllo limitato delle traiettorie in dominio aperto nella ricerca attuale, proponiamo una modellazione delle traiettorie con tre aspetti: un Campionatore di Traiettorie (TS) per abilitare il controllo in dominio aperto di traiettorie arbitrarie, una Fusione Multiscala (MF) per controllare le traiettorie con diverse granularità, e una strategia di Addestramento Adattivo (AT) per generare video coerenti seguendo le traiettorie. I nostri esperimenti convalidano l'efficacia di DragNUWA, dimostrando le sue prestazioni superiori nel controllo fine nella generazione di video. Il link alla homepage è https://www.microsoft.com/en-us/research/project/dragnuwa/.

English

Controllable video generation has gained significant attention in recent years. However, two main limitations persist: Firstly, most existing works focus on either text, image, or trajectory-based control, leading to an inability to achieve fine-grained control in videos. Secondly, trajectory control research is still in its early stages, with most experiments being conducted on simple datasets like Human3.6M. This constraint limits the models' capability to process open-domain images and effectively handle complex curved trajectories. In this paper, we propose DragNUWA, an open-domain diffusion-based video generation model. To tackle the issue of insufficient control granularity in existing works, we simultaneously introduce text, image, and trajectory information to provide fine-grained control over video content from semantic, spatial, and temporal perspectives. To resolve the problem of limited open-domain trajectory control in current research, We propose trajectory modeling with three aspects: a Trajectory Sampler (TS) to enable open-domain control of arbitrary trajectories, a Multiscale Fusion (MF) to control trajectories in different granularities, and an Adaptive Training (AT) strategy to generate consistent videos following trajectories. Our experiments validate the effectiveness of DragNUWA, demonstrating its superior performance in fine-grained control in video generation. The homepage link is https://www.microsoft.com/en-us/research/project/dragnuwa/

DragNUWA: Controllo Fine-grained nella Generazione di Video attraverso l'Integrazione di Testo, Immagine e Traiettoria

DragNUWA: Fine-grained Control in Video Generation by Integrating Text, Image, and Trajectory

Abstract

Support