MotionBooth: Bewegungsabhängige individuelle Text-zu-Video-Erzeugung
MotionBooth: Motion-Aware Customized Text-to-Video Generation
June 25, 2024
Autoren: Jianzong Wu, Xiangtai Li, Yanhong Zeng, Jiangning Zhang, Qianyu Zhou, Yining Li, Yunhai Tong, Kai Chen
cs.AI
Zusammenfassung
In dieser Arbeit präsentieren wir MotionBooth, ein innovatives Framework, das für die Animation individueller Objekte mit präziser Kontrolle über sowohl Objekt- als auch Kamerabewegungen entwickelt wurde. Durch die Nutzung weniger Bilder eines bestimmten Objekts feinabstimmen wir effizient ein Text-zu-Video-Modell, um die Form und Merkmale des Objekts präzise zu erfassen. Unser Ansatz beinhaltet Verlustfunktionen für den Objektbereich und die Videoerhaltung, um die Lernleistung des Objekts zu verbessern, sowie eine Verlustfunktion für die Kreuz-Aufmerksamkeit des Objekt-Tokens, um das individuelle Objekt mit Bewegungssteuersignalen zu integrieren. Darüber hinaus schlagen wir trainingsfreie Techniken zur Verwaltung von Objekt- und Kamerabewegungen während der Inferenz vor. Insbesondere nutzen wir die Manipulation von Kreuz-Aufmerksamkeitskarten zur Steuerung der Objektbewegung und führen ein neuartiges latentes Verschiebungsmodul für die Steuerung der Kamerabewegung ein. MotionBooth zeichnet sich durch die Erhaltung des Erscheinungsbilds der Objekte aus, während gleichzeitig die Bewegungen in den generierten Videos gesteuert werden. Umfangreiche quantitative und qualitative Bewertungen belegen die Überlegenheit und Wirksamkeit unserer Methode. Unsere Projektseite befindet sich unter https://jianzongwu.github.io/projects/motionbooth
English
In this work, we present MotionBooth, an innovative framework designed for
animating customized subjects with precise control over both object and camera
movements. By leveraging a few images of a specific object, we efficiently
fine-tune a text-to-video model to capture the object's shape and attributes
accurately. Our approach presents subject region loss and video preservation
loss to enhance the subject's learning performance, along with a subject token
cross-attention loss to integrate the customized subject with motion control
signals. Additionally, we propose training-free techniques for managing subject
and camera motions during inference. In particular, we utilize cross-attention
map manipulation to govern subject motion and introduce a novel latent shift
module for camera movement control as well. MotionBooth excels in preserving
the appearance of subjects while simultaneously controlling the motions in
generated videos. Extensive quantitative and qualitative evaluations
demonstrate the superiority and effectiveness of our method. Our project page
is at https://jianzongwu.github.io/projects/motionboothSummary
AI-Generated Summary