DreamVideo-2: Настройка видео под управлением объекта без обучающих данных с точным управлением движением.
DreamVideo-2: Zero-Shot Subject-Driven Video Customization with Precise Motion Control
October 17, 2024
Авторы: Yujie Wei, Shiwei Zhang, Hangjie Yuan, Xiang Wang, Haonan Qiu, Rui Zhao, Yutong Feng, Feng Liu, Zhizhong Huang, Jiaxin Ye, Yingya Zhang, Hongming Shan
cs.AI
Аннотация
Недавние достижения в области индивидуализированной генерации видео позволили пользователям создавать видеоролики, адаптированные под конкретные объекты и траектории движения. Однако существующие методы часто требуют сложной настройки во время тестирования и испытывают затруднения с балансировкой обучения объектов и управления движением, что ограничивает их применение в реальном мире. В данной статье мы представляем DreamVideo-2, фреймворк для настройки видео без обучения на этапе тестирования, способный генерировать видеоролики с определенным объектом и траекторией движения, управляемый одним изображением и последовательностью ограничивающих рамок соответственно. В частности, мы вводим механизм внимания к эталону, который использует встроенные возможности модели для обучения объектов, и разрабатываем модуль управления движением по маске для достижения точного управления движением путем полного использования надежного сигнала движения масок, полученных из ограничивающих рамок. В то время как эти два компонента выполняют свои предназначенные функции, мы эмпирически наблюдаем, что управление движением часто доминирует над обучением объектов. Для решения этой проблемы мы предлагаем два ключевых решения: 1) маскированное внимание к эталону, которое интегрирует смешанную схему моделирования латентной маски во внимание к эталону для улучшения представлений объектов в желаемых позициях, и 2) перевзвешенную потерю диффузии, которая различает вклады областей внутри и снаружи ограничивающих рамок для обеспечения баланса между объектом и управлением движением. Обширные экспериментальные результаты на вновь составленном наборе данных показывают, что DreamVideo-2 превосходит существующие методы как в настройке объектов, так и в управлении движением. Набор данных, код и модели будут общедоступны.
English
Recent advances in customized video generation have enabled users to create
videos tailored to both specific subjects and motion trajectories. However,
existing methods often require complicated test-time fine-tuning and struggle
with balancing subject learning and motion control, limiting their real-world
applications. In this paper, we present DreamVideo-2, a zero-shot video
customization framework capable of generating videos with a specific subject
and motion trajectory, guided by a single image and a bounding box sequence,
respectively, and without the need for test-time fine-tuning. Specifically, we
introduce reference attention, which leverages the model's inherent
capabilities for subject learning, and devise a mask-guided motion module to
achieve precise motion control by fully utilizing the robust motion signal of
box masks derived from bounding boxes. While these two components achieve their
intended functions, we empirically observe that motion control tends to
dominate over subject learning. To address this, we propose two key designs: 1)
the masked reference attention, which integrates a blended latent mask modeling
scheme into reference attention to enhance subject representations at the
desired positions, and 2) a reweighted diffusion loss, which differentiates the
contributions of regions inside and outside the bounding boxes to ensure a
balance between subject and motion control. Extensive experimental results on a
newly curated dataset demonstrate that DreamVideo-2 outperforms
state-of-the-art methods in both subject customization and motion control. The
dataset, code, and models will be made publicly available.Summary
AI-Generated Summary