FantasyID: Gesichtswissensgestützte ID-erhaltende Videogenerierung
FantasyID: Face Knowledge Enhanced ID-Preserving Video Generation
February 19, 2025
Autoren: Yunpeng Zhang, Qiang Wang, Fan Jiang, Yaqi Fan, Mu Xu, Yonggang Qi
cs.AI
Zusammenfassung
Tuning-freie Ansätze, die großskalige vortrainierte Video-Diffusionsmodelle für die identitätserhaltende Text-zu-Video-Generierung (IPT2V) adaptieren, haben aufgrund ihrer Effizienz und Skalierbarkeit in letzter Zeit an Popularität gewonnen. Dennoch bestehen erhebliche Herausforderungen, um zufriedenstellende Gesichtsbewegungen zu erreichen, während die Identität unverändert bleibt. In dieser Arbeit präsentieren wir ein neuartiges tuning-freies IPT2V-Framework, indem wir das Gesichtswissen des vortrainierten Videomodells, das auf Diffusions-Transformatoren (DiT) basiert, erweitern, genannt FantasyID. Im Wesentlichen wird ein 3D-Gesichtsgeometrie-Prior integriert, um plausible Gesichtsstrukturen während der Videosynthese zu gewährleisten. Um zu verhindern, dass das Modell Copy-Paste-Kurzschlüsse lernt, die einfach das Referenzgesicht über die Frames hinweg replizieren, wird eine Multi-View-Gesichtsverstärkungsstrategie entwickelt, um vielfältige 2D-Gesichtserscheinungsmerkmale zu erfassen und somit die Dynamik der Gesichtsausdrücke und Kopfhaltungen zu erhöhen. Zusätzlich wird nach dem Mischen der 2D- und 3D-Merkmale als Anleitung anstelle einer naiven Verwendung von Cross-Attention zur Einspritzung von Anleitungshinweisen in die DiT-Schichten ein lernbares schichtbewusstes adaptives Mechanismus eingesetzt, um die fusionierten Merkmale selektiv in jede einzelne DiT-Schicht einzuspritzen, was eine ausgewogene Modellierung von Identitätserhaltung und Bewegungsdynamik erleichtert. Experimentelle Ergebnisse bestätigen die Überlegenheit unseres Modells gegenüber den aktuellen tuning-freien IPT2V-Methoden.
English
Tuning-free approaches adapting large-scale pre-trained video diffusion
models for identity-preserving text-to-video generation (IPT2V) have gained
popularity recently due to their efficacy and scalability. However, significant
challenges remain to achieve satisfied facial dynamics while keeping the
identity unchanged. In this work, we present a novel tuning-free IPT2V
framework by enhancing face knowledge of the pre-trained video model built on
diffusion transformers (DiT), dubbed FantasyID. Essentially, 3D facial geometry
prior is incorporated to ensure plausible facial structures during video
synthesis. To prevent the model from learning copy-paste shortcuts that simply
replicate reference face across frames, a multi-view face augmentation strategy
is devised to capture diverse 2D facial appearance features, hence increasing
the dynamics over the facial expressions and head poses. Additionally, after
blending the 2D and 3D features as guidance, instead of naively employing
cross-attention to inject guidance cues into DiT layers, a learnable
layer-aware adaptive mechanism is employed to selectively inject the fused
features into each individual DiT layers, facilitating balanced modeling of
identity preservation and motion dynamics. Experimental results validate our
model's superiority over the current tuning-free IPT2V methods.Summary
AI-Generated Summary