DragNUWA: テキスト、画像、軌道の統合による映像生成におけるきめ細かい制御
DragNUWA: Fine-grained Control in Video Generation by Integrating Text, Image, and Trajectory
August 16, 2023
著者: Shengming Yin, Chenfei Wu, Jian Liang, Jie Shi, Houqiang Li, Gong Ming, Nan Duan
cs.AI
要旨
制御可能なビデオ生成は近年大きな注目を集めている。しかし、以下の2つの主要な課題が依然として存在する。第一に、既存研究の多くはテキスト、画像、または軌道ベースの制御のいずれかに焦点を当てているため、ビデオにおける微細な制御を実現できない。第二に、軌道制御の研究はまだ初期段階にあり、ほとんどの実験がHuman3.6Mのような単純なデータセットで実施されている。この制約により、モデルがオープンドメイン画像を処理し、複雑な曲線軌道を効果的に扱う能力が制限されている。本論文では、オープンドメインの拡散ベースビデオ生成モデルであるDragNUWAを提案する。既存研究の制御粒度不足の問題に対処するため、テキスト、画像、軌道情報を同時に導入し、意味的、空間的、時間的観点からビデオコンテンツに対する微細な制御を実現する。現在の研究におけるオープンドメイン軌道制御の限界を解決するため、3つの側面からなる軌道モデリングを提案する。任意の軌道のオープンドメイン制御を可能にするTrajectory Sampler (TS)、異なる粒度で軌道を制御するMultiscale Fusion (MF)、軌道に沿った一貫性のあるビデオ生成を実現するAdaptive Training (AT)戦略である。実験によりDragNUWAの有効性を検証し、ビデオ生成における微細な制御の優れた性能を実証する。ホームページリンクはhttps://www.microsoft.com/en-us/research/project/dragnuwa/である。
English
Controllable video generation has gained significant attention in recent
years. However, two main limitations persist: Firstly, most existing works
focus on either text, image, or trajectory-based control, leading to an
inability to achieve fine-grained control in videos. Secondly, trajectory
control research is still in its early stages, with most experiments being
conducted on simple datasets like Human3.6M. This constraint limits the models'
capability to process open-domain images and effectively handle complex curved
trajectories. In this paper, we propose DragNUWA, an open-domain
diffusion-based video generation model. To tackle the issue of insufficient
control granularity in existing works, we simultaneously introduce text, image,
and trajectory information to provide fine-grained control over video content
from semantic, spatial, and temporal perspectives. To resolve the problem of
limited open-domain trajectory control in current research, We propose
trajectory modeling with three aspects: a Trajectory Sampler (TS) to enable
open-domain control of arbitrary trajectories, a Multiscale Fusion (MF) to
control trajectories in different granularities, and an Adaptive Training (AT)
strategy to generate consistent videos following trajectories. Our experiments
validate the effectiveness of DragNUWA, demonstrating its superior performance
in fine-grained control in video generation. The homepage link is
https://www.microsoft.com/en-us/research/project/dragnuwa/