Magic-Me : Personnalisation vidéo spécifique à l'identité par diffusion adaptée

papers.abstract

La création de contenu pour une identité spécifique (ID) a suscité un intérêt significatif dans le domaine des modèles génératifs. Dans le domaine de la génération d'images à partir de texte (T2I), la génération de contenu pilotée par un sujet a réalisé des progrès considérables, avec la possibilité de contrôler l'ID dans les images. Cependant, son extension à la génération de vidéos n'a pas été bien explorée. Dans ce travail, nous proposons un cadre simple mais efficace pour la génération de vidéos avec contrôle de l'identité du sujet, appelé Video Custom Diffusion (VCD). Avec un sujet ID spécifié par quelques images, VCD renforce l'extraction des informations d'identité et injecte une corrélation inter-images au stade de l'initialisation pour produire des vidéos stables tout en préservant largement l'identité. Pour y parvenir, nous proposons trois composants novateurs essentiels pour une préservation de haute qualité de l'ID : 1) un module ID entraîné avec l'identité recadrée par segmentation basée sur des prompts, afin de dissocier les informations d'identité du bruit de fond pour un apprentissage plus précis des tokens d'identité ; 2) un module T2V (texte-à-vidéo) VCD avec un a priori de bruit gaussien 3D pour une meilleure cohérence inter-images ; et 3) des modules V2V (vidéo-à-vidéo) Face VCD et Tiled VCD pour déflouter les visages et augmenter la résolution de la vidéo. Malgré sa simplicité, nous avons mené des expériences approfondies pour vérifier que VCD est capable de générer des vidéos stables et de haute qualité avec une meilleure préservation de l'ID par rapport aux bases de référence sélectionnées. De plus, grâce à la transférabilité du module ID, VCD fonctionne également bien avec des modèles texte-à-image affinés disponibles publiquement, améliorant ainsi son utilité. Les codes sont disponibles à l'adresse https://github.com/Zhen-Dong/Magic-Me.

English

Creating content for a specific identity (ID) has shown significant interest in the field of generative models. In the field of text-to-image generation (T2I), subject-driven content generation has achieved great progress with the ID in the images controllable. However, extending it to video generation is not well explored. In this work, we propose a simple yet effective subject identity controllable video generation framework, termed Video Custom Diffusion (VCD). With a specified subject ID defined by a few images, VCD reinforces the identity information extraction and injects frame-wise correlation at the initialization stage for stable video outputs with identity preserved to a large extent. To achieve this, we propose three novel components that are essential for high-quality ID preservation: 1) an ID module trained with the cropped identity by prompt-to-segmentation to disentangle the ID information and the background noise for more accurate ID token learning; 2) a text-to-video (T2V) VCD module with 3D Gaussian Noise Prior for better inter-frame consistency and 3) video-to-video (V2V) Face VCD and Tiled VCD modules to deblur the face and upscale the video for higher resolution. Despite its simplicity, we conducted extensive experiments to verify that VCD is able to generate stable and high-quality videos with better ID over the selected strong baselines. Besides, due to the transferability of the ID module, VCD is also working well with finetuned text-to-image models available publically, further improving its usability. The codes are available at https://github.com/Zhen-Dong/Magic-Me.

Magic-Me : Personnalisation vidéo spécifique à l'identité par diffusion adaptée

Magic-Me: Identity-Specific Video Customized Diffusion

papers.abstract

Support