Magic-Me: Identitätsspezifische Videoanpassung durch DiffusionMagic-Me: Identity-Specific Video Customized Diffusion
Die Erstellung von Inhalten für eine spezifische Identität (ID) hat im Bereich der generativen Modelle großes Interesse geweckt. Im Bereich der Text-zu-Bild-Generierung (T2I) hat die subjektgesteuerte Inhaltsgenerierung bedeutende Fortschritte erzielt, wobei die ID in den Bildern kontrollierbar ist. Die Erweiterung auf die Videogenerierung ist jedoch noch nicht umfassend erforscht. In dieser Arbeit schlagen wir ein einfaches, aber effektives Framework für die subjektidentitätskontrollierte Videogenerierung vor, das als Video Custom Diffusion (VCD) bezeichnet wird. Mit einer spezifizierten Subjekt-ID, die durch einige Bilder definiert ist, verstärkt VCD die Extraktion von Identitätsinformationen und injiziert eine rahmenweise Korrelation im Initialisierungsstadium, um stabile Videoausgaben zu erzielen, bei denen die Identität weitgehend erhalten bleibt. Um dies zu erreichen, schlagen wir drei neuartige Komponenten vor, die für die hochwertige ID-Erhaltung entscheidend sind: 1) ein ID-Modul, das mit der zugeschnittenen Identität durch Prompt-to-Segmentation trainiert wird, um die ID-Informationen vom Hintergrundrauschen zu entkoppeln und eine genauere ID-Token-Lernung zu ermöglichen; 2) ein Text-zu-Video (T2V) VCD-Modul mit 3D-Gaußschem Rauschprior für eine bessere Interframe-Konsistenz und 3) Video-zu-Video (V2V) Face VCD und Tiled VCD Module, um das Gesicht zu schärfen und das Video für eine höhere Auflösung zu vergrößern. Trotz seiner Einfachheit haben wir umfangreiche Experimente durchgeführt, um zu bestätigen, dass VCD stabile und hochwertige Videos mit besserer ID im Vergleich zu ausgewählten starken Baselines generieren kann. Darüber hinaus funktioniert VCD aufgrund der Übertragbarkeit des ID-Moduls auch gut mit öffentlich verfügbaren, feinabgestimmten Text-zu-Bild-Modellen, was seine Nutzbarkeit weiter verbessert. Die Codes sind verfügbar unter https://github.com/Zhen-Dong/Magic-Me.