ChatPaper.aiChatPaper

MotionClone: Training-freies Motion Cloning für kontrollierbare Videogenerierung

MotionClone: Training-Free Motion Cloning for Controllable Video Generation

June 8, 2024
Autoren: Pengyang Ling, Jiazi Bu, Pan Zhang, Xiaoyi Dong, Yuhang Zang, Tong Wu, Huaian Chen, Jiaqi Wang, Yi Jin
cs.AI

Zusammenfassung

Die auf Bewegungen basierende steuerbare Text-zu-Video-Generierung beinhaltet Bewegungen zur Steuerung der Videoerzeugung. Frühere Methoden erfordern in der Regel das Training von Modellen zur Kodierung von Bewegungshinweisen oder das Feintuning von Videodiffusionsmodellen. Diese Ansätze führen jedoch häufig zu suboptimaler Bewegungserzeugung, wenn sie außerhalb des trainierten Bereichs angewendet werden. In dieser Arbeit schlagen wir MotionClone vor, ein trainingsfreies Framework, das die Bewegungsklonierung von einem Referenzvideo zur Steuerung der Text-zu-Video-Generierung ermöglicht. Wir verwenden zeitliche Aufmerksamkeit in der Videoinversion, um die Bewegungen im Referenzvideo darzustellen, und führen primäre zeitliche Aufmerksamkeitsführung ein, um den Einfluss von rauschhaften oder sehr subtilen Bewegungen innerhalb der Aufmerksamkeitsgewichte zu mildern. Darüber hinaus schlagen wir zur Unterstützung des Generierungsmodells bei der Synthese vernünftiger räumlicher Beziehungen und zur Verbesserung seiner prompten Folgefähigkeit einen ortsbezogenen semantischen Führungmechanismus vor, der den groben Standort des Vordergrunds aus dem Referenzvideo und originale klassifiziererfreie Führungseigenschaften nutzt, um die Videoerzeugung zu leiten. Umfangreiche Experimente zeigen, dass MotionClone sowohl bei globalen Kamerabewegungen als auch bei lokalen Objektbewegungen eine hohe Kompetenz aufweist, mit bemerkenswerter Überlegenheit in Bezug auf Bewegungstreue, textuelle Ausrichtung und zeitliche Konsistenz.
English
Motion-based controllable text-to-video generation involves motions to control the video generation. Previous methods typically require the training of models to encode motion cues or the fine-tuning of video diffusion models. However, these approaches often result in suboptimal motion generation when applied outside the trained domain. In this work, we propose MotionClone, a training-free framework that enables motion cloning from a reference video to control text-to-video generation. We employ temporal attention in video inversion to represent the motions in the reference video and introduce primary temporal-attention guidance to mitigate the influence of noisy or very subtle motions within the attention weights. Furthermore, to assist the generation model in synthesizing reasonable spatial relationships and enhance its prompt-following capability, we propose a location-aware semantic guidance mechanism that leverages the coarse location of the foreground from the reference video and original classifier-free guidance features to guide the video generation. Extensive experiments demonstrate that MotionClone exhibits proficiency in both global camera motion and local object motion, with notable superiority in terms of motion fidelity, textual alignment, and temporal consistency.

Summary

AI-Generated Summary

PDF424December 8, 2024