DreamVideo-2: Nullschuss-Subjektgesteuerte Videokonfiguration mit präziser Bewegungssteuerung
DreamVideo-2: Zero-Shot Subject-Driven Video Customization with Precise Motion Control
October 17, 2024
Autoren: Yujie Wei, Shiwei Zhang, Hangjie Yuan, Xiang Wang, Haonan Qiu, Rui Zhao, Yutong Feng, Feng Liu, Zhizhong Huang, Jiaxin Ye, Yingya Zhang, Hongming Shan
cs.AI
Zusammenfassung
In jüngster Zeit haben Fortschritte bei der individuellen Videogenerierung Benutzern ermöglicht, Videos zu erstellen, die sowohl spezifischen Themen als auch Bewegungsbahnen angepasst sind. Allerdings erfordern bestehende Methoden oft kompliziertes Feintuning zur Testzeit und haben Schwierigkeiten, das Lernen von Themen und die Bewegungssteuerung auszubalancieren, was ihre Anwendbarkeit im wirklichen Leben einschränkt. In diesem Artikel stellen wir DreamVideo-2 vor, ein Zero-Shot-Videokonfigurations-Framework, das in der Lage ist, Videos mit einem spezifischen Thema und Bewegungsbahn zu generieren, die jeweils durch ein einzelnes Bild und eine Sequenz von Begrenzungsrahmen geleitet werden, und ohne die Notwendigkeit für Feintuning zur Testzeit. Speziell führen wir die Referenzaufmerksamkeit ein, die die inhärenten Fähigkeiten des Modells für das Themenlernen nutzt, und entwickeln ein maskengeführtes Bewegungsmodul, um eine präzise Bewegungssteuerung zu erreichen, indem das robuste Bewegungssignal von Feldmasken, die aus Begrenzungsrahmen abgeleitet sind, vollständig genutzt wird. Obwohl diese beiden Komponenten ihre beabsichtigten Funktionen erfüllen, beobachten wir empirisch, dass die Bewegungssteuerung dazu neigt, das Themenlernen zu dominieren. Um dies anzugehen, schlagen wir zwei Schlüsselkonzepte vor: 1) die maskierte Referenzaufmerksamkeit, die ein integriertes latentes Maskenmodellierungsschema in die Referenzaufmerksamkeit einbezieht, um Themenrepräsentationen an den gewünschten Positionen zu verbessern, und 2) einen neu gewichteten Diffusionsverlust, der die Beiträge von Regionen innerhalb und außerhalb der Begrenzungsrahmen differenziert, um ein Gleichgewicht zwischen Themen- und Bewegungssteuerung sicherzustellen. Umfangreiche experimentelle Ergebnisse auf einem neu zusammengestellten Datensatz zeigen, dass DreamVideo-2 sowohl in der Themenanpassung als auch in der Bewegungssteuerung die Methoden auf dem neuesten Stand der Technik übertrifft. Der Datensatz, der Code und die Modelle werden öffentlich zugänglich gemacht.
English
Recent advances in customized video generation have enabled users to create
videos tailored to both specific subjects and motion trajectories. However,
existing methods often require complicated test-time fine-tuning and struggle
with balancing subject learning and motion control, limiting their real-world
applications. In this paper, we present DreamVideo-2, a zero-shot video
customization framework capable of generating videos with a specific subject
and motion trajectory, guided by a single image and a bounding box sequence,
respectively, and without the need for test-time fine-tuning. Specifically, we
introduce reference attention, which leverages the model's inherent
capabilities for subject learning, and devise a mask-guided motion module to
achieve precise motion control by fully utilizing the robust motion signal of
box masks derived from bounding boxes. While these two components achieve their
intended functions, we empirically observe that motion control tends to
dominate over subject learning. To address this, we propose two key designs: 1)
the masked reference attention, which integrates a blended latent mask modeling
scheme into reference attention to enhance subject representations at the
desired positions, and 2) a reweighted diffusion loss, which differentiates the
contributions of regions inside and outside the bounding boxes to ensure a
balance between subject and motion control. Extensive experimental results on a
newly curated dataset demonstrate that DreamVideo-2 outperforms
state-of-the-art methods in both subject customization and motion control. The
dataset, code, and models will be made publicly available.Summary
AI-Generated Summary