Magic-Me: Identiteitsspecifieke Video Aangepaste Diffusie

Samenvatting

Het creëren van inhoud voor een specifieke identiteit (ID) heeft aanzienlijke interesse getoond in het veld van generatieve modellen. Op het gebied van tekst-naar-beeldgeneratie (T2I) heeft onderwerpgedreven inhoudgeneratie grote vooruitgang geboekt, waarbij de ID in de afbeeldingen controleerbaar is. Echter, het uitbreiden hiervan naar videogeneratie is nog niet goed onderzocht. In dit werk stellen we een eenvoudig maar effectief raamwerk voor voor videogeneratie met controle over de onderwerpidentiteit, genaamd Video Custom Diffusion (VCD). Met een gespecificeerde onderwerp-ID gedefinieerd door enkele afbeeldingen, versterkt VCD de extractie van identiteitsinformatie en injecteert het framegewijze correlatie in de initialisatiefase voor stabiele video-uitvoer waarbij de identiteit grotendeels behouden blijft. Om dit te bereiken, stellen we drie nieuwe componenten voor die essentieel zijn voor hoogwaardige ID-behoud: 1) een ID-module getraind met de bijgesneden identiteit door prompt-naar-segmentatie om de ID-informatie en de achtergrondruis te ontwarren voor nauwkeuriger ID-tokenleren; 2) een tekst-naar-video (T2V) VCD-module met 3D Gaussische Ruis Prior voor betere consistentie tussen frames en 3) video-naar-video (V2V) Face VCD en Tiled VCD-modules om het gezicht te ontdoen van vervaging en de video op te schalen voor een hogere resolutie. Ondanks de eenvoud hebben we uitgebreide experimenten uitgevoerd om te verifiëren dat VCD in staat is stabiele en hoogwaardige video's te genereren met een betere ID in vergelijking met geselecteerde sterke basislijnen. Bovendien, vanwege de overdraagbaarheid van de ID-module, werkt VCD ook goed met fijn afgestemde tekst-naar-beeldmodellen die publiekelijk beschikbaar zijn, wat de bruikbaarheid verder verbetert. De codes zijn beschikbaar op https://github.com/Zhen-Dong/Magic-Me.

English

Creating content for a specific identity (ID) has shown significant interest in the field of generative models. In the field of text-to-image generation (T2I), subject-driven content generation has achieved great progress with the ID in the images controllable. However, extending it to video generation is not well explored. In this work, we propose a simple yet effective subject identity controllable video generation framework, termed Video Custom Diffusion (VCD). With a specified subject ID defined by a few images, VCD reinforces the identity information extraction and injects frame-wise correlation at the initialization stage for stable video outputs with identity preserved to a large extent. To achieve this, we propose three novel components that are essential for high-quality ID preservation: 1) an ID module trained with the cropped identity by prompt-to-segmentation to disentangle the ID information and the background noise for more accurate ID token learning; 2) a text-to-video (T2V) VCD module with 3D Gaussian Noise Prior for better inter-frame consistency and 3) video-to-video (V2V) Face VCD and Tiled VCD modules to deblur the face and upscale the video for higher resolution. Despite its simplicity, we conducted extensive experiments to verify that VCD is able to generate stable and high-quality videos with better ID over the selected strong baselines. Besides, due to the transferability of the ID module, VCD is also working well with finetuned text-to-image models available publically, further improving its usability. The codes are available at https://github.com/Zhen-Dong/Magic-Me.

Magic-Me: Identiteitsspecifieke Video Aangepaste Diffusie

Magic-Me: Identity-Specific Video Customized Diffusion

Samenvatting

Support