MotionClone: Trainingsvrije Bewegingsklonering voor Beheersbare Videogeneratie
MotionClone: Training-Free Motion Cloning for Controllable Video Generation
June 8, 2024
Auteurs: Pengyang Ling, Jiazi Bu, Pan Zhang, Xiaoyi Dong, Yuhang Zang, Tong Wu, Huaian Chen, Jiaqi Wang, Yi Jin
cs.AI
Samenvatting
Op beweging gebaseerde regelbare tekst-naar-video-generatie maakt gebruik van bewegingen om de videogeneratie te sturen. Eerdere methoden vereisen doorgaans het trainen van modellen om bewegingssignalen te coderen of het finetunen van videodiffusiemodellen. Deze benaderingen resulteren echter vaak in suboptimale bewegingsgeneratie wanneer ze buiten het getrainde domein worden toegepast. In dit werk stellen we MotionClone voor, een trainingsvrij raamwerk dat het klonen van bewegingen vanuit een referentievideo mogelijk maakt om tekst-naar-video-generatie te sturen. We gebruiken temporele aandacht in video-inversie om de bewegingen in de referentievideo weer te geven en introduceren primaire temporele-aandachtsturing om de invloed van ruisachtige of zeer subtiele bewegingen binnen de aandachtgewichten te verminderen. Bovendien stellen we een locatiebewust semantisch stuurmechanisme voor om het generatiemodel te helpen redelijke ruimtelijke relaties te synthetiseren en zijn promptvolgingsvermogen te verbeteren. Dit mechanisme maakt gebruik van de grove locatie van de voorgrond uit de referentievideo en originele classifier-free stuurkenmerken om de videogeneratie te begeleiden. Uitgebreide experimenten tonen aan dat MotionClone bedreven is in zowel globale camerabewegingen als lokale objectbewegingen, met opmerkelijke superioriteit op het gebied van bewegingsgetrouwheid, tekstuele uitlijning en temporele consistentie.
English
Motion-based controllable text-to-video generation involves motions to
control the video generation. Previous methods typically require the training
of models to encode motion cues or the fine-tuning of video diffusion models.
However, these approaches often result in suboptimal motion generation when
applied outside the trained domain. In this work, we propose MotionClone, a
training-free framework that enables motion cloning from a reference video to
control text-to-video generation. We employ temporal attention in video
inversion to represent the motions in the reference video and introduce primary
temporal-attention guidance to mitigate the influence of noisy or very subtle
motions within the attention weights. Furthermore, to assist the generation
model in synthesizing reasonable spatial relationships and enhance its
prompt-following capability, we propose a location-aware semantic guidance
mechanism that leverages the coarse location of the foreground from the
reference video and original classifier-free guidance features to guide the
video generation. Extensive experiments demonstrate that MotionClone exhibits
proficiency in both global camera motion and local object motion, with notable
superiority in terms of motion fidelity, textual alignment, and temporal
consistency.