DreamVideo-2: Nullschuss-Subjektgesteuerte Videokonfiguration mit präziser Bewegungssteuerung

papers.abstract

In jüngster Zeit haben Fortschritte bei der individuellen Videogenerierung Benutzern ermöglicht, Videos zu erstellen, die sowohl spezifischen Themen als auch Bewegungsbahnen angepasst sind. Allerdings erfordern bestehende Methoden oft kompliziertes Feintuning zur Testzeit und haben Schwierigkeiten, das Lernen von Themen und die Bewegungssteuerung auszubalancieren, was ihre Anwendbarkeit im wirklichen Leben einschränkt. In diesem Artikel stellen wir DreamVideo-2 vor, ein Zero-Shot-Videokonfigurations-Framework, das in der Lage ist, Videos mit einem spezifischen Thema und Bewegungsbahn zu generieren, die jeweils durch ein einzelnes Bild und eine Sequenz von Begrenzungsrahmen geleitet werden, und ohne die Notwendigkeit für Feintuning zur Testzeit. Speziell führen wir die Referenzaufmerksamkeit ein, die die inhärenten Fähigkeiten des Modells für das Themenlernen nutzt, und entwickeln ein maskengeführtes Bewegungsmodul, um eine präzise Bewegungssteuerung zu erreichen, indem das robuste Bewegungssignal von Feldmasken, die aus Begrenzungsrahmen abgeleitet sind, vollständig genutzt wird. Obwohl diese beiden Komponenten ihre beabsichtigten Funktionen erfüllen, beobachten wir empirisch, dass die Bewegungssteuerung dazu neigt, das Themenlernen zu dominieren. Um dies anzugehen, schlagen wir zwei Schlüsselkonzepte vor: 1) die maskierte Referenzaufmerksamkeit, die ein integriertes latentes Maskenmodellierungsschema in die Referenzaufmerksamkeit einbezieht, um Themenrepräsentationen an den gewünschten Positionen zu verbessern, und 2) einen neu gewichteten Diffusionsverlust, der die Beiträge von Regionen innerhalb und außerhalb der Begrenzungsrahmen differenziert, um ein Gleichgewicht zwischen Themen- und Bewegungssteuerung sicherzustellen. Umfangreiche experimentelle Ergebnisse auf einem neu zusammengestellten Datensatz zeigen, dass DreamVideo-2 sowohl in der Themenanpassung als auch in der Bewegungssteuerung die Methoden auf dem neuesten Stand der Technik übertrifft. Der Datensatz, der Code und die Modelle werden öffentlich zugänglich gemacht.

English

Recent advances in customized video generation have enabled users to create videos tailored to both specific subjects and motion trajectories. However, existing methods often require complicated test-time fine-tuning and struggle with balancing subject learning and motion control, limiting their real-world applications. In this paper, we present DreamVideo-2, a zero-shot video customization framework capable of generating videos with a specific subject and motion trajectory, guided by a single image and a bounding box sequence, respectively, and without the need for test-time fine-tuning. Specifically, we introduce reference attention, which leverages the model's inherent capabilities for subject learning, and devise a mask-guided motion module to achieve precise motion control by fully utilizing the robust motion signal of box masks derived from bounding boxes. While these two components achieve their intended functions, we empirically observe that motion control tends to dominate over subject learning. To address this, we propose two key designs: 1) the masked reference attention, which integrates a blended latent mask modeling scheme into reference attention to enhance subject representations at the desired positions, and 2) a reweighted diffusion loss, which differentiates the contributions of regions inside and outside the bounding boxes to ensure a balance between subject and motion control. Extensive experimental results on a newly curated dataset demonstrate that DreamVideo-2 outperforms state-of-the-art methods in both subject customization and motion control. The dataset, code, and models will be made publicly available.

DreamVideo-2: Nullschuss-Subjektgesteuerte Videokonfiguration mit präziser Bewegungssteuerung

DreamVideo-2: Zero-Shot Subject-Driven Video Customization with Precise Motion Control

papers.abstract

Support