FantasyID: Generación de Video con Preservación de Identidad Mejorada por Conocimiento Facial
FantasyID: Face Knowledge Enhanced ID-Preserving Video Generation
February 19, 2025
Autores: Yunpeng Zhang, Qiang Wang, Fan Jiang, Yaqi Fan, Mu Xu, Yonggang Qi
cs.AI
Resumen
Los enfoques sin ajuste que adaptan modelos de difusión de video preentrenados a gran escala para la generación de texto a video con preservación de identidad (IPT2V, por sus siglas en inglés) han ganado popularidad recientemente debido a su eficacia y escalabilidad. Sin embargo, persisten desafíos significativos para lograr dinámicas faciales satisfactorias mientras se mantiene la identidad inalterada. En este trabajo, presentamos un novedoso marco IPT2V sin ajuste al mejorar el conocimiento facial del modelo de video preentrenado basado en transformadores de difusión (DiT), denominado FantasyID. Esencialmente, se incorpora un previo de geometría facial 3D para garantizar estructuras faciales plausibles durante la síntesis de video. Para evitar que el modelo aprenda atajos de copiar y pegar que simplemente repliquen la cara de referencia a lo largo de los fotogramas, se diseña una estrategia de aumento facial multivista para capturar diversas características de apariencia facial en 2D, aumentando así la dinámica en las expresiones faciales y las poses de la cabeza. Además, después de combinar las características 2D y 3D como guía, en lugar de emplear de manera ingenua la atención cruzada para inyectar señales de guía en las capas de DiT, se utiliza un mecanismo adaptativo consciente de las capas y aprendible para inyectar selectivamente las características fusionadas en cada capa individual de DiT, facilitando un modelado equilibrado de la preservación de la identidad y las dinámicas de movimiento. Los resultados experimentales validan la superioridad de nuestro modelo sobre los métodos IPT2V sin ajuste actuales.
English
Tuning-free approaches adapting large-scale pre-trained video diffusion
models for identity-preserving text-to-video generation (IPT2V) have gained
popularity recently due to their efficacy and scalability. However, significant
challenges remain to achieve satisfied facial dynamics while keeping the
identity unchanged. In this work, we present a novel tuning-free IPT2V
framework by enhancing face knowledge of the pre-trained video model built on
diffusion transformers (DiT), dubbed FantasyID. Essentially, 3D facial geometry
prior is incorporated to ensure plausible facial structures during video
synthesis. To prevent the model from learning copy-paste shortcuts that simply
replicate reference face across frames, a multi-view face augmentation strategy
is devised to capture diverse 2D facial appearance features, hence increasing
the dynamics over the facial expressions and head poses. Additionally, after
blending the 2D and 3D features as guidance, instead of naively employing
cross-attention to inject guidance cues into DiT layers, a learnable
layer-aware adaptive mechanism is employed to selectively inject the fused
features into each individual DiT layers, facilitating balanced modeling of
identity preservation and motion dynamics. Experimental results validate our
model's superiority over the current tuning-free IPT2V methods.Summary
AI-Generated Summary