DreamVideo-2: Personalización de video impulsada por el sujeto sin necesidad de entrenamiento con control preciso del movimiento.
DreamVideo-2: Zero-Shot Subject-Driven Video Customization with Precise Motion Control
October 17, 2024
Autores: Yujie Wei, Shiwei Zhang, Hangjie Yuan, Xiang Wang, Haonan Qiu, Rui Zhao, Yutong Feng, Feng Liu, Zhizhong Huang, Jiaxin Ye, Yingya Zhang, Hongming Shan
cs.AI
Resumen
Los avances recientes en la generación personalizada de videos han permitido a los usuarios crear videos adaptados tanto a sujetos específicos como a trayectorias de movimiento. Sin embargo, los métodos existentes a menudo requieren un ajuste fino complicado en tiempo de prueba y tienen dificultades para equilibrar el aprendizaje del sujeto y el control del movimiento, lo que limita sus aplicaciones en el mundo real. En este documento, presentamos DreamVideo-2, un marco de personalización de video de cero disparos capaz de generar videos con un sujeto específico y una trayectoria de movimiento, guiado por una sola imagen y una secuencia de cuadros delimitadores, respectivamente, y sin necesidad de ajuste fino en tiempo de prueba. Específicamente, introducimos la atención de referencia, que aprovecha las capacidades inherentes del modelo para el aprendizaje del sujeto, y diseñamos un módulo de movimiento guiado por máscara para lograr un control preciso del movimiento utilizando completamente la señal de movimiento robusta de las máscaras de cuadro derivadas de los cuadros delimitadores. Mientras que estos dos componentes logran sus funciones previstas, observamos empíricamente que el control del movimiento tiende a dominar sobre el aprendizaje del sujeto. Para abordar esto, proponemos dos diseños clave: 1) la atención de referencia enmascarada, que integra un esquema de modelado de máscara latente mezclada en la atención de referencia para mejorar las representaciones del sujeto en las posiciones deseadas, y 2) una pérdida de difusión reponderada, que diferencia las contribuciones de las regiones dentro y fuera de los cuadros delimitadores para garantizar un equilibrio entre el sujeto y el control del movimiento. Los extensos resultados experimentales en un conjunto de datos recién recopilado demuestran que DreamVideo-2 supera a los métodos de vanguardia tanto en la personalización del sujeto como en el control del movimiento. El conjunto de datos, el código y los modelos estarán disponibles públicamente.
English
Recent advances in customized video generation have enabled users to create
videos tailored to both specific subjects and motion trajectories. However,
existing methods often require complicated test-time fine-tuning and struggle
with balancing subject learning and motion control, limiting their real-world
applications. In this paper, we present DreamVideo-2, a zero-shot video
customization framework capable of generating videos with a specific subject
and motion trajectory, guided by a single image and a bounding box sequence,
respectively, and without the need for test-time fine-tuning. Specifically, we
introduce reference attention, which leverages the model's inherent
capabilities for subject learning, and devise a mask-guided motion module to
achieve precise motion control by fully utilizing the robust motion signal of
box masks derived from bounding boxes. While these two components achieve their
intended functions, we empirically observe that motion control tends to
dominate over subject learning. To address this, we propose two key designs: 1)
the masked reference attention, which integrates a blended latent mask modeling
scheme into reference attention to enhance subject representations at the
desired positions, and 2) a reweighted diffusion loss, which differentiates the
contributions of regions inside and outside the bounding boxes to ensure a
balance between subject and motion control. Extensive experimental results on a
newly curated dataset demonstrate that DreamVideo-2 outperforms
state-of-the-art methods in both subject customization and motion control. The
dataset, code, and models will be made publicly available.Summary
AI-Generated Summary