DreamVideo-2: Personalizzazione video guidata dal soggetto senza bisogno di addestramento con controllo preciso del movimento
DreamVideo-2: Zero-Shot Subject-Driven Video Customization with Precise Motion Control
October 17, 2024
Autori: Yujie Wei, Shiwei Zhang, Hangjie Yuan, Xiang Wang, Haonan Qiu, Rui Zhao, Yutong Feng, Feng Liu, Zhizhong Huang, Jiaxin Ye, Yingya Zhang, Hongming Shan
cs.AI
Abstract
I recenti progressi nella generazione personalizzata di video hanno permesso agli utenti di creare video su misura sia per soggetti specifici che per traiettorie di movimento. Tuttavia, i metodi esistenti spesso richiedono un complicato adattamento fine-tempo e faticano nel bilanciare l'apprendimento del soggetto e il controllo del movimento, limitando le loro applicazioni nel mondo reale. In questo articolo, presentiamo DreamVideo-2, un framework di personalizzazione video a zero-shot in grado di generare video con un soggetto specifico e una traiettoria di movimento, guidati rispettivamente da un'immagine singola e da una sequenza di bounding box, senza la necessità di adattamenti fine-tempo. In particolare, introduciamo l'attenzione di riferimento, che sfrutta le capacità intrinseche del modello per l'apprendimento del soggetto, e progettiamo un modulo di movimento guidato da maschere per ottenere un controllo preciso del movimento sfruttando appieno il robusto segnale di movimento delle maschere di box derivate dalle bounding box. Mentre questi due componenti raggiungono le loro funzioni previste, osserviamo empiricamente che il controllo del movimento tende a dominare sull'apprendimento del soggetto. Per affrontare questo problema, proponiamo due design chiave: 1) l'attenzione di riferimento mascherata, che integra uno schema di modellazione di maschere latenti mescolate nell'attenzione di riferimento per potenziare le rappresentazioni del soggetto nelle posizioni desiderate, e 2) una perdita di diffusione ripesata, che differenzia i contributi delle regioni all'interno e all'esterno delle bounding box per garantire un equilibrio tra controllo del soggetto e del movimento. Estesi risultati sperimentali su un dataset appena curato dimostrano che DreamVideo-2 supera i metodi all'avanguardia sia nella personalizzazione del soggetto che nel controllo del movimento. Il dataset, il codice e i modelli saranno resi pubblicamente disponibili.
English
Recent advances in customized video generation have enabled users to create
videos tailored to both specific subjects and motion trajectories. However,
existing methods often require complicated test-time fine-tuning and struggle
with balancing subject learning and motion control, limiting their real-world
applications. In this paper, we present DreamVideo-2, a zero-shot video
customization framework capable of generating videos with a specific subject
and motion trajectory, guided by a single image and a bounding box sequence,
respectively, and without the need for test-time fine-tuning. Specifically, we
introduce reference attention, which leverages the model's inherent
capabilities for subject learning, and devise a mask-guided motion module to
achieve precise motion control by fully utilizing the robust motion signal of
box masks derived from bounding boxes. While these two components achieve their
intended functions, we empirically observe that motion control tends to
dominate over subject learning. To address this, we propose two key designs: 1)
the masked reference attention, which integrates a blended latent mask modeling
scheme into reference attention to enhance subject representations at the
desired positions, and 2) a reweighted diffusion loss, which differentiates the
contributions of regions inside and outside the bounding boxes to ensure a
balance between subject and motion control. Extensive experimental results on a
newly curated dataset demonstrate that DreamVideo-2 outperforms
state-of-the-art methods in both subject customization and motion control. The
dataset, code, and models will be made publicly available.Summary
AI-Generated Summary