DreamVideo-2: Personalización de video impulsada por el sujeto sin necesidad de entrenamiento con control preciso del movimiento.

Resumen

Los avances recientes en la generación personalizada de videos han permitido a los usuarios crear videos adaptados tanto a sujetos específicos como a trayectorias de movimiento. Sin embargo, los métodos existentes a menudo requieren un ajuste fino complicado en tiempo de prueba y tienen dificultades para equilibrar el aprendizaje del sujeto y el control del movimiento, lo que limita sus aplicaciones en el mundo real. En este documento, presentamos DreamVideo-2, un marco de personalización de video de cero disparos capaz de generar videos con un sujeto específico y una trayectoria de movimiento, guiado por una sola imagen y una secuencia de cuadros delimitadores, respectivamente, y sin necesidad de ajuste fino en tiempo de prueba. Específicamente, introducimos la atención de referencia, que aprovecha las capacidades inherentes del modelo para el aprendizaje del sujeto, y diseñamos un módulo de movimiento guiado por máscara para lograr un control preciso del movimiento utilizando completamente la señal de movimiento robusta de las máscaras de cuadro derivadas de los cuadros delimitadores. Mientras que estos dos componentes logran sus funciones previstas, observamos empíricamente que el control del movimiento tiende a dominar sobre el aprendizaje del sujeto. Para abordar esto, proponemos dos diseños clave: 1) la atención de referencia enmascarada, que integra un esquema de modelado de máscara latente mezclada en la atención de referencia para mejorar las representaciones del sujeto en las posiciones deseadas, y 2) una pérdida de difusión reponderada, que diferencia las contribuciones de las regiones dentro y fuera de los cuadros delimitadores para garantizar un equilibrio entre el sujeto y el control del movimiento. Los extensos resultados experimentales en un conjunto de datos recién recopilado demuestran que DreamVideo-2 supera a los métodos de vanguardia tanto en la personalización del sujeto como en el control del movimiento. El conjunto de datos, el código y los modelos estarán disponibles públicamente.

English

Recent advances in customized video generation have enabled users to create videos tailored to both specific subjects and motion trajectories. However, existing methods often require complicated test-time fine-tuning and struggle with balancing subject learning and motion control, limiting their real-world applications. In this paper, we present DreamVideo-2, a zero-shot video customization framework capable of generating videos with a specific subject and motion trajectory, guided by a single image and a bounding box sequence, respectively, and without the need for test-time fine-tuning. Specifically, we introduce reference attention, which leverages the model's inherent capabilities for subject learning, and devise a mask-guided motion module to achieve precise motion control by fully utilizing the robust motion signal of box masks derived from bounding boxes. While these two components achieve their intended functions, we empirically observe that motion control tends to dominate over subject learning. To address this, we propose two key designs: 1) the masked reference attention, which integrates a blended latent mask modeling scheme into reference attention to enhance subject representations at the desired positions, and 2) a reweighted diffusion loss, which differentiates the contributions of regions inside and outside the bounding boxes to ensure a balance between subject and motion control. Extensive experimental results on a newly curated dataset demonstrate that DreamVideo-2 outperforms state-of-the-art methods in both subject customization and motion control. The dataset, code, and models will be made publicly available.

DreamVideo-2: Personalización de video impulsada por el sujeto sin necesidad de entrenamiento con control preciso del movimiento.

DreamVideo-2: Zero-Shot Subject-Driven Video Customization with Precise Motion Control

Resumen

Support