Magic-Me: Personalizzazione Video Specifica dell'Identità tramite Diffusione

Abstract

La creazione di contenuti per un'identità specifica (ID) ha suscitato un notevole interesse nel campo dei modelli generativi. Nel settore della generazione di immagini da testo (T2I), la generazione di contenuti guidata dal soggetto ha compiuto grandi progressi, con l'ID nelle immagini controllabile. Tuttavia, estenderla alla generazione di video non è stata ancora esplorata a fondo. In questo lavoro, proponiamo un framework semplice ma efficace per la generazione di video con controllo dell'identità del soggetto, denominato Video Custom Diffusion (VCD). Con un ID del soggetto specificato da poche immagini, VCD rafforza l'estrazione delle informazioni sull'identità e inietta una correlazione frame-by-frame nella fase di inizializzazione per ottenere output video stabili con l'identità preservata in larga misura. Per raggiungere questo obiettivo, proponiamo tre componenti innovativi essenziali per una preservazione di alta qualità dell'ID: 1) un modulo ID addestrato con l'identità ritagliata tramite prompt-to-segmentation per separare le informazioni sull'ID dal rumore di fondo, consentendo un apprendimento più accurato dei token ID; 2) un modulo T2V VCD con 3D Gaussian Noise Prior per una migliore coerenza inter-fotogramma; e 3) moduli V2V Face VCD e Tiled VCD per ridurre la sfocatura del volto e aumentare la risoluzione del video. Nonostante la sua semplicità, abbiamo condotto esperimenti approfonditi per verificare che VCD sia in grado di generare video stabili e di alta qualità con un'identità migliore rispetto ai baseline selezionati. Inoltre, grazie alla trasferibilità del modulo ID, VCD funziona bene anche con modelli text-to-image fine-tuned disponibili pubblicamente, migliorando ulteriormente la sua usabilità. I codici sono disponibili all'indirizzo https://github.com/Zhen-Dong/Magic-Me.

English

Creating content for a specific identity (ID) has shown significant interest in the field of generative models. In the field of text-to-image generation (T2I), subject-driven content generation has achieved great progress with the ID in the images controllable. However, extending it to video generation is not well explored. In this work, we propose a simple yet effective subject identity controllable video generation framework, termed Video Custom Diffusion (VCD). With a specified subject ID defined by a few images, VCD reinforces the identity information extraction and injects frame-wise correlation at the initialization stage for stable video outputs with identity preserved to a large extent. To achieve this, we propose three novel components that are essential for high-quality ID preservation: 1) an ID module trained with the cropped identity by prompt-to-segmentation to disentangle the ID information and the background noise for more accurate ID token learning; 2) a text-to-video (T2V) VCD module with 3D Gaussian Noise Prior for better inter-frame consistency and 3) video-to-video (V2V) Face VCD and Tiled VCD modules to deblur the face and upscale the video for higher resolution. Despite its simplicity, we conducted extensive experiments to verify that VCD is able to generate stable and high-quality videos with better ID over the selected strong baselines. Besides, due to the transferability of the ID module, VCD is also working well with finetuned text-to-image models available publically, further improving its usability. The codes are available at https://github.com/Zhen-Dong/Magic-Me.

Magic-Me: Personalizzazione Video Specifica dell'Identità tramite Diffusione

Magic-Me: Identity-Specific Video Customized Diffusion

Abstract

Support