FantasyID: Geração de Vídeo Aprimorada por Conhecimento Facial Preservando a Identidade
FantasyID: Face Knowledge Enhanced ID-Preserving Video Generation
February 19, 2025
Autores: Yunpeng Zhang, Qiang Wang, Fan Jiang, Yaqi Fan, Mu Xu, Yonggang Qi
cs.AI
Resumo
Abordagens livres de ajustes que adaptam modelos de difusão de vídeo pré-treinados em larga escala para geração de texto para vídeo preservando identidade (IPT2V) têm ganhado popularidade recentemente devido à sua eficácia e escalabilidade. No entanto, desafios significativos ainda permanecem para alcançar dinâmicas faciais satisfatórias mantendo a identidade inalterada. Neste trabalho, apresentamos um novo framework IPT2V livre de ajustes, aprimorando o conhecimento facial do modelo de vídeo pré-treinado construído em transformadores de difusão (DiT), denominado FantasyID. Essencialmente, uma priori de geometria facial 3D é incorporado para garantir estruturas faciais plausíveis durante a síntese de vídeo. Para evitar que o modelo aprenda atalhos de copiar e colar que simplesmente replicam o rosto de referência em todos os frames, uma estratégia de aumento de face multi-visão é desenvolvida para capturar diversas características de aparência facial 2D, aumentando assim a dinâmica sobre as expressões faciais e poses de cabeça. Além disso, após mesclar as características 2D e 3D como orientação, em vez de empregar ingenuamente a atenção cruzada para injetar pistas de orientação nas camadas DiT, um mecanismo adaptativo aprendível consciente da camada é empregado para injetar seletivamente as características fundidas em cada camada individual de DiT, facilitando a modelagem equilibrada da preservação de identidade e dinâmicas de movimento. Resultados experimentais validam a superioridade de nosso modelo sobre os métodos atuais de IPT2V livres de ajustes.
English
Tuning-free approaches adapting large-scale pre-trained video diffusion
models for identity-preserving text-to-video generation (IPT2V) have gained
popularity recently due to their efficacy and scalability. However, significant
challenges remain to achieve satisfied facial dynamics while keeping the
identity unchanged. In this work, we present a novel tuning-free IPT2V
framework by enhancing face knowledge of the pre-trained video model built on
diffusion transformers (DiT), dubbed FantasyID. Essentially, 3D facial geometry
prior is incorporated to ensure plausible facial structures during video
synthesis. To prevent the model from learning copy-paste shortcuts that simply
replicate reference face across frames, a multi-view face augmentation strategy
is devised to capture diverse 2D facial appearance features, hence increasing
the dynamics over the facial expressions and head poses. Additionally, after
blending the 2D and 3D features as guidance, instead of naively employing
cross-attention to inject guidance cues into DiT layers, a learnable
layer-aware adaptive mechanism is employed to selectively inject the fused
features into each individual DiT layers, facilitating balanced modeling of
identity preservation and motion dynamics. Experimental results validate our
model's superiority over the current tuning-free IPT2V methods.Summary
AI-Generated Summary