Direct-a-Video: Individuelle Videogenerierung mit benutzerdefinierter Kamerabewegung und Objektbewegung
Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion
February 5, 2024
Autoren: Shiyuan Yang, Liang Hou, Haibin Huang, Chongyang Ma, Pengfei Wan, Di Zhang, Xiaodong Chen, Jing Liao
cs.AI
Zusammenfassung
Aktuelle Text-zu-Video-Diffusionsmodelle haben beeindruckende Fortschritte erzielt. In der Praxis wünschen sich Benutzer oft die Möglichkeit, Objektbewegungen und Kamerabewegungen unabhängig voneinander zu steuern, um maßgeschneiderte Videos zu erstellen. Allerdings fehlt es aktuellen Methoden an der Fokussierung auf die getrennte Steuerung von Objektbewegungen und Kamerabewegungen in einer entkoppelten Weise, was die Kontrollierbarkeit und Flexibilität von Text-zu-Video-Modellen einschränkt. In diesem Artikel stellen wir Direct-a-Video vor, ein System, das es Benutzern ermöglicht, Bewegungen für ein oder mehrere Objekte und/oder Kamerabewegungen unabhängig voneinander festzulegen, als ob sie ein Video inszenieren würden. Wir schlagen eine einfache, aber effektive Strategie für die entkoppelte Steuerung von Objektbewegungen und Kamerabewegungen vor. Die Objektbewegung wird durch räumliche Cross-Attention-Modulation unter Verwendung der inhärenten Prioritäten des Modells gesteuert, ohne dass zusätzliche Optimierung erforderlich ist. Für die Kamerabewegung führen wir neue temporale Cross-Attention-Schichten ein, um quantitative Kamerabewegungsparameter zu interpretieren. Wir verwenden weiterhin einen augmentationsbasierten Ansatz, um diese Schichten in einer selbstüberwachten Weise auf einem kleinen Datensatz zu trainieren, wodurch die Notwendigkeit expliziter Bewegungsannotationen entfällt. Beide Komponenten arbeiten unabhängig voneinander, ermöglichen eine individuelle oder kombinierte Steuerung und können sich auf offene Domänenszenarien verallgemeinern. Umfangreiche Experimente demonstrieren die Überlegenheit und Effektivität unserer Methode. Projektseite: https://direct-a-video.github.io/.
English
Recent text-to-video diffusion models have achieved impressive progress. In
practice, users often desire the ability to control object motion and camera
movement independently for customized video creation. However, current methods
lack the focus on separately controlling object motion and camera movement in a
decoupled manner, which limits the controllability and flexibility of
text-to-video models. In this paper, we introduce Direct-a-Video, a system that
allows users to independently specify motions for one or multiple objects
and/or camera movements, as if directing a video. We propose a simple yet
effective strategy for the decoupled control of object motion and camera
movement. Object motion is controlled through spatial cross-attention
modulation using the model's inherent priors, requiring no additional
optimization. For camera movement, we introduce new temporal cross-attention
layers to interpret quantitative camera movement parameters. We further employ
an augmentation-based approach to train these layers in a self-supervised
manner on a small-scale dataset, eliminating the need for explicit motion
annotation. Both components operate independently, allowing individual or
combined control, and can generalize to open-domain scenarios. Extensive
experiments demonstrate the superiority and effectiveness of our method.
Project page: https://direct-a-video.github.io/.