Direct-a-Video: Gepersonaliseerde Videogeneratie met Gebruikersgestuurde Camerabeweging en Objectbeweging
Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion
February 5, 2024
Auteurs: Shiyuan Yang, Liang Hou, Haibin Huang, Chongyang Ma, Pengfei Wan, Di Zhang, Xiaodong Chen, Jing Liao
cs.AI
Samenvatting
Recente tekst-naar-video diffusiemodellen hebben indrukwekkende vooruitgang geboekt. In de praktijk willen gebruikers vaak de mogelijkheid hebben om objectbeweging en camerabeweging onafhankelijk te kunnen beheersen voor het maken van aangepaste video's. Huidige methoden richten zich echter niet op het afzonderlijk beheersen van objectbeweging en camerabeweging in een ontkoppelde manier, wat de bestuurbaarheid en flexibiliteit van tekst-naar-video modellen beperkt. In dit artikel introduceren we Direct-a-Video, een systeem dat gebruikers in staat stelt om onafhankelijk bewegingen voor één of meerdere objecten en/of camerabewegingen te specificeren, alsof ze een video regisseren. We stellen een eenvoudige maar effectieve strategie voor voor de ontkoppelde beheersing van objectbeweging en camerabeweging. Objectbeweging wordt beheerst via ruimtelijke cross-attention modulatie met behulp van de inherente prioriteiten van het model, zonder dat extra optimalisatie nodig is. Voor camerabeweging introduceren we nieuwe temporele cross-attention lagen om kwantitatieve camerabewegingsparameters te interpreteren. We gebruiken verder een augmentatie-gebaseerde aanpak om deze lagen op een kleine dataset op een zelfgesuperviseerde manier te trainen, waardoor expliciete bewegingsannotatie overbodig wordt. Beide componenten werken onafhankelijk, waardoor individuele of gecombineerde beheersing mogelijk is, en kunnen generaliseren naar open-domein scenario's. Uitgebreide experimenten tonen de superioriteit en effectiviteit van onze methode aan. Projectpagina: https://direct-a-video.github.io/.
English
Recent text-to-video diffusion models have achieved impressive progress. In
practice, users often desire the ability to control object motion and camera
movement independently for customized video creation. However, current methods
lack the focus on separately controlling object motion and camera movement in a
decoupled manner, which limits the controllability and flexibility of
text-to-video models. In this paper, we introduce Direct-a-Video, a system that
allows users to independently specify motions for one or multiple objects
and/or camera movements, as if directing a video. We propose a simple yet
effective strategy for the decoupled control of object motion and camera
movement. Object motion is controlled through spatial cross-attention
modulation using the model's inherent priors, requiring no additional
optimization. For camera movement, we introduce new temporal cross-attention
layers to interpret quantitative camera movement parameters. We further employ
an augmentation-based approach to train these layers in a self-supervised
manner on a small-scale dataset, eliminating the need for explicit motion
annotation. Both components operate independently, allowing individual or
combined control, and can generalize to open-domain scenarios. Extensive
experiments demonstrate the superiority and effectiveness of our method.
Project page: https://direct-a-video.github.io/.