ChatPaper.aiChatPaper

DreamVideo-2 : Personnalisation vidéo guidée par sujet sans entraînement avec contrôle précis du mouvement

DreamVideo-2: Zero-Shot Subject-Driven Video Customization with Precise Motion Control

October 17, 2024
Auteurs: Yujie Wei, Shiwei Zhang, Hangjie Yuan, Xiang Wang, Haonan Qiu, Rui Zhao, Yutong Feng, Feng Liu, Zhizhong Huang, Jiaxin Ye, Yingya Zhang, Hongming Shan
cs.AI

Résumé

Les récents progrès dans la génération de vidéos personnalisées ont permis aux utilisateurs de créer des vidéos adaptées à des sujets spécifiques et à des trajectoires de mouvement. Cependant, les méthodes existantes nécessitent souvent un réglage fin compliqué au moment du test et ont du mal à équilibrer l'apprentissage du sujet et le contrôle du mouvement, limitant ainsi leurs applications dans le monde réel. Dans cet article, nous présentons DreamVideo-2, un cadre de personnalisation de vidéos sans ajustement au moment du test capable de générer des vidéos avec un sujet spécifique et une trajectoire de mouvement, guidé par une seule image et une séquence de boîtes englobantes, respectivement, et sans nécessiter de réglage fin au moment du test. Plus précisément, nous introduisons l'attention de référence, qui exploite les capacités inhérentes du modèle pour l'apprentissage du sujet, et concevons un module de mouvement guidé par un masque pour obtenir un contrôle précis du mouvement en utilisant pleinement le signal de mouvement robuste des masques de boîtes dérivés des boîtes englobantes. Alors que ces deux composants remplissent leurs fonctions prévues, nous observons empiriquement que le contrôle du mouvement a tendance à dominer l'apprentissage du sujet. Pour remédier à cela, nous proposons deux conceptions clés : 1) l'attention de référence masquée, qui intègre un schéma de modélisation de masque latent mélangé dans l'attention de référence pour améliorer les représentations du sujet aux positions souhaitées, et 2) une perte de diffusion repondérée, qui différencie les contributions des régions à l'intérieur et à l'extérieur des boîtes englobantes pour assurer un équilibre entre le sujet et le contrôle du mouvement. Des résultats expérimentaux approfondis sur un ensemble de données nouvellement créé démontrent que DreamVideo-2 surpasse les méthodes de pointe à la fois en termes de personnalisation du sujet et de contrôle du mouvement. L'ensemble de données, le code et les modèles seront rendus publics.
English
Recent advances in customized video generation have enabled users to create videos tailored to both specific subjects and motion trajectories. However, existing methods often require complicated test-time fine-tuning and struggle with balancing subject learning and motion control, limiting their real-world applications. In this paper, we present DreamVideo-2, a zero-shot video customization framework capable of generating videos with a specific subject and motion trajectory, guided by a single image and a bounding box sequence, respectively, and without the need for test-time fine-tuning. Specifically, we introduce reference attention, which leverages the model's inherent capabilities for subject learning, and devise a mask-guided motion module to achieve precise motion control by fully utilizing the robust motion signal of box masks derived from bounding boxes. While these two components achieve their intended functions, we empirically observe that motion control tends to dominate over subject learning. To address this, we propose two key designs: 1) the masked reference attention, which integrates a blended latent mask modeling scheme into reference attention to enhance subject representations at the desired positions, and 2) a reweighted diffusion loss, which differentiates the contributions of regions inside and outside the bounding boxes to ensure a balance between subject and motion control. Extensive experimental results on a newly curated dataset demonstrate that DreamVideo-2 outperforms state-of-the-art methods in both subject customization and motion control. The dataset, code, and models will be made publicly available.

Summary

AI-Generated Summary

PDF252November 16, 2024