DragNUWA: Control de grano fino en la generación de videos mediante la integración de texto, imagen y trayectoria
DragNUWA: Fine-grained Control in Video Generation by Integrating Text, Image, and Trajectory
August 16, 2023
Autores: Shengming Yin, Chenfei Wu, Jian Liang, Jie Shi, Houqiang Li, Gong Ming, Nan Duan
cs.AI
Resumen
La generación controlada de videos ha ganado una atención significativa en los últimos años. Sin embargo, persisten dos limitaciones principales: En primer lugar, la mayoría de los trabajos existentes se centran en el control basado en texto, imágenes o trayectorias, lo que conduce a una incapacidad para lograr un control detallado en los videos. En segundo lugar, la investigación sobre el control de trayectorias aún se encuentra en sus etapas iniciales, con la mayoría de los experimentos realizados en conjuntos de datos simples como Human3.6M. Esta restricción limita la capacidad de los modelos para procesar imágenes de dominio abierto y manejar eficazmente trayectorias curvas complejas. En este artículo, proponemos DragNUWA, un modelo de generación de videos basado en difusión de dominio abierto. Para abordar el problema de la insuficiente granularidad de control en los trabajos existentes, introducimos simultáneamente información de texto, imagen y trayectoria para proporcionar un control detallado sobre el contenido del video desde perspectivas semánticas, espaciales y temporales. Para resolver el problema del control limitado de trayectorias en el dominio abierto en la investigación actual, proponemos un modelado de trayectorias con tres aspectos: un Muestreador de Trayectorias (TS) para permitir el control de dominio abierto de trayectorias arbitrarias, una Fusión Multiescala (MF) para controlar trayectorias en diferentes granularidades, y una estrategia de Entrenamiento Adaptativo (AT) para generar videos consistentes siguiendo trayectorias. Nuestros experimentos validan la efectividad de DragNUWA, demostrando su rendimiento superior en el control detallado en la generación de videos. El enlace a la página principal es https://www.microsoft.com/en-us/research/project/dragnuwa/.
English
Controllable video generation has gained significant attention in recent
years. However, two main limitations persist: Firstly, most existing works
focus on either text, image, or trajectory-based control, leading to an
inability to achieve fine-grained control in videos. Secondly, trajectory
control research is still in its early stages, with most experiments being
conducted on simple datasets like Human3.6M. This constraint limits the models'
capability to process open-domain images and effectively handle complex curved
trajectories. In this paper, we propose DragNUWA, an open-domain
diffusion-based video generation model. To tackle the issue of insufficient
control granularity in existing works, we simultaneously introduce text, image,
and trajectory information to provide fine-grained control over video content
from semantic, spatial, and temporal perspectives. To resolve the problem of
limited open-domain trajectory control in current research, We propose
trajectory modeling with three aspects: a Trajectory Sampler (TS) to enable
open-domain control of arbitrary trajectories, a Multiscale Fusion (MF) to
control trajectories in different granularities, and an Adaptive Training (AT)
strategy to generate consistent videos following trajectories. Our experiments
validate the effectiveness of DragNUWA, demonstrating its superior performance
in fine-grained control in video generation. The homepage link is
https://www.microsoft.com/en-us/research/project/dragnuwa/