DragNUWA: Точное управление генерацией видео за счет интеграции текста, изображения и траектории
DragNUWA: Fine-grained Control in Video Generation by Integrating Text, Image, and Trajectory
August 16, 2023
Авторы: Shengming Yin, Chenfei Wu, Jian Liang, Jie Shi, Houqiang Li, Gong Ming, Nan Duan
cs.AI
Аннотация
Управляемая генерация видео привлекает значительное внимание в последние годы. Однако сохраняются два основных ограничения: во-первых, большинство существующих работ сосредоточено либо на текстовом, либо на изображении, либо на управлении на основе траекторий, что не позволяет достичь детализированного контроля в видео. Во-вторых, исследования в области управления траекториями находятся на ранних стадиях, и большинство экспериментов проводятся на простых наборах данных, таких как Human3.6M. Это ограничивает способность моделей обрабатывать изображения из открытых доменов и эффективно справляться со сложными криволинейными траекториями. В данной статье мы предлагаем DragNUWA, модель генерации видео на основе диффузии для открытых доменов. Чтобы решить проблему недостаточной детализации управления в существующих работах, мы одновременно вводим текстовую, изображенную и траекторную информацию, обеспечивая детализированный контроль над содержимым видео с семантической, пространственной и временной точек зрения. Чтобы устранить ограниченность управления траекториями в открытых доменах в текущих исследованиях, мы предлагаем моделирование траекторий с тремя аспектами: Сэмплер Траекторий (TS) для обеспечения управления произвольными траекториями в открытых доменах, Многоуровневое Слияние (MF) для управления траекториями с разной степенью детализации и Адаптивная Стратегия Обучения (AT) для генерации согласованных видео, следующих заданным траекториям. Наши эксперименты подтверждают эффективность DragNUWA, демонстрируя её превосходную производительность в детализированном управлении генерацией видео. Ссылка на домашнюю страницу: https://www.microsoft.com/en-us/research/project/dragnuwa/
English
Controllable video generation has gained significant attention in recent
years. However, two main limitations persist: Firstly, most existing works
focus on either text, image, or trajectory-based control, leading to an
inability to achieve fine-grained control in videos. Secondly, trajectory
control research is still in its early stages, with most experiments being
conducted on simple datasets like Human3.6M. This constraint limits the models'
capability to process open-domain images and effectively handle complex curved
trajectories. In this paper, we propose DragNUWA, an open-domain
diffusion-based video generation model. To tackle the issue of insufficient
control granularity in existing works, we simultaneously introduce text, image,
and trajectory information to provide fine-grained control over video content
from semantic, spatial, and temporal perspectives. To resolve the problem of
limited open-domain trajectory control in current research, We propose
trajectory modeling with three aspects: a Trajectory Sampler (TS) to enable
open-domain control of arbitrary trajectories, a Multiscale Fusion (MF) to
control trajectories in different granularities, and an Adaptive Training (AT)
strategy to generate consistent videos following trajectories. Our experiments
validate the effectiveness of DragNUWA, demonstrating its superior performance
in fine-grained control in video generation. The homepage link is
https://www.microsoft.com/en-us/research/project/dragnuwa/