Magic-Me: Identitätsspezifische Videoanpassung durch Diffusion
Magic-Me: Identity-Specific Video Customized Diffusion
February 14, 2024
Autoren: Ze Ma, Daquan Zhou, Chun-Hsiao Yeh, Xue-She Wang, Xiuyu Li, Huanrui Yang, Zhen Dong, Kurt Keutzer, Jiashi Feng
cs.AI
Zusammenfassung
Die Erstellung von Inhalten für eine spezifische Identität (ID) hat im Bereich der generativen Modelle großes Interesse geweckt. Im Bereich der Text-zu-Bild-Generierung (T2I) hat die subjektgesteuerte Inhaltsgenerierung bedeutende Fortschritte erzielt, wobei die ID in den Bildern kontrollierbar ist. Die Erweiterung auf die Videogenerierung ist jedoch noch nicht umfassend erforscht. In dieser Arbeit schlagen wir ein einfaches, aber effektives Framework für die subjektidentitätskontrollierte Videogenerierung vor, das als Video Custom Diffusion (VCD) bezeichnet wird. Mit einer spezifizierten Subjekt-ID, die durch einige Bilder definiert ist, verstärkt VCD die Extraktion von Identitätsinformationen und injiziert eine rahmenweise Korrelation im Initialisierungsstadium, um stabile Videoausgaben zu erzielen, bei denen die Identität weitgehend erhalten bleibt. Um dies zu erreichen, schlagen wir drei neuartige Komponenten vor, die für die hochwertige ID-Erhaltung entscheidend sind: 1) ein ID-Modul, das mit der zugeschnittenen Identität durch Prompt-to-Segmentation trainiert wird, um die ID-Informationen vom Hintergrundrauschen zu entkoppeln und eine genauere ID-Token-Lernung zu ermöglichen; 2) ein Text-zu-Video (T2V) VCD-Modul mit 3D-Gaußschem Rauschprior für eine bessere Interframe-Konsistenz und 3) Video-zu-Video (V2V) Face VCD und Tiled VCD Module, um das Gesicht zu schärfen und das Video für eine höhere Auflösung zu vergrößern.
Trotz seiner Einfachheit haben wir umfangreiche Experimente durchgeführt, um zu bestätigen, dass VCD stabile und hochwertige Videos mit besserer ID im Vergleich zu ausgewählten starken Baselines generieren kann. Darüber hinaus funktioniert VCD aufgrund der Übertragbarkeit des ID-Moduls auch gut mit öffentlich verfügbaren, feinabgestimmten Text-zu-Bild-Modellen, was seine Nutzbarkeit weiter verbessert. Die Codes sind verfügbar unter https://github.com/Zhen-Dong/Magic-Me.
English
Creating content for a specific identity (ID) has shown significant interest
in the field of generative models. In the field of text-to-image generation
(T2I), subject-driven content generation has achieved great progress with the
ID in the images controllable. However, extending it to video generation is not
well explored. In this work, we propose a simple yet effective subject identity
controllable video generation framework, termed Video Custom Diffusion (VCD).
With a specified subject ID defined by a few images, VCD reinforces the
identity information extraction and injects frame-wise correlation at the
initialization stage for stable video outputs with identity preserved to a
large extent. To achieve this, we propose three novel components that are
essential for high-quality ID preservation: 1) an ID module trained with the
cropped identity by prompt-to-segmentation to disentangle the ID information
and the background noise for more accurate ID token learning; 2) a
text-to-video (T2V) VCD module with 3D Gaussian Noise Prior for better
inter-frame consistency and 3) video-to-video (V2V) Face VCD and Tiled VCD
modules to deblur the face and upscale the video for higher resolution.
Despite its simplicity, we conducted extensive experiments to verify that VCD
is able to generate stable and high-quality videos with better ID over the
selected strong baselines. Besides, due to the transferability of the ID
module, VCD is also working well with finetuned text-to-image models available
publically, further improving its usability. The codes are available at
https://github.com/Zhen-Dong/Magic-Me.Summary
AI-Generated Summary