ChatPaper.aiChatPaper

FantasyID: Geração de Vídeo Aprimorada por Conhecimento Facial Preservando a Identidade

FantasyID: Face Knowledge Enhanced ID-Preserving Video Generation

February 19, 2025
Autores: Yunpeng Zhang, Qiang Wang, Fan Jiang, Yaqi Fan, Mu Xu, Yonggang Qi
cs.AI

Resumo

Abordagens livres de ajustes que adaptam modelos de difusão de vídeo pré-treinados em larga escala para geração de texto para vídeo preservando identidade (IPT2V) têm ganhado popularidade recentemente devido à sua eficácia e escalabilidade. No entanto, desafios significativos ainda permanecem para alcançar dinâmicas faciais satisfatórias mantendo a identidade inalterada. Neste trabalho, apresentamos um novo framework IPT2V livre de ajustes, aprimorando o conhecimento facial do modelo de vídeo pré-treinado construído em transformadores de difusão (DiT), denominado FantasyID. Essencialmente, uma priori de geometria facial 3D é incorporado para garantir estruturas faciais plausíveis durante a síntese de vídeo. Para evitar que o modelo aprenda atalhos de copiar e colar que simplesmente replicam o rosto de referência em todos os frames, uma estratégia de aumento de face multi-visão é desenvolvida para capturar diversas características de aparência facial 2D, aumentando assim a dinâmica sobre as expressões faciais e poses de cabeça. Além disso, após mesclar as características 2D e 3D como orientação, em vez de empregar ingenuamente a atenção cruzada para injetar pistas de orientação nas camadas DiT, um mecanismo adaptativo aprendível consciente da camada é empregado para injetar seletivamente as características fundidas em cada camada individual de DiT, facilitando a modelagem equilibrada da preservação de identidade e dinâmicas de movimento. Resultados experimentais validam a superioridade de nosso modelo sobre os métodos atuais de IPT2V livres de ajustes.
English
Tuning-free approaches adapting large-scale pre-trained video diffusion models for identity-preserving text-to-video generation (IPT2V) have gained popularity recently due to their efficacy and scalability. However, significant challenges remain to achieve satisfied facial dynamics while keeping the identity unchanged. In this work, we present a novel tuning-free IPT2V framework by enhancing face knowledge of the pre-trained video model built on diffusion transformers (DiT), dubbed FantasyID. Essentially, 3D facial geometry prior is incorporated to ensure plausible facial structures during video synthesis. To prevent the model from learning copy-paste shortcuts that simply replicate reference face across frames, a multi-view face augmentation strategy is devised to capture diverse 2D facial appearance features, hence increasing the dynamics over the facial expressions and head poses. Additionally, after blending the 2D and 3D features as guidance, instead of naively employing cross-attention to inject guidance cues into DiT layers, a learnable layer-aware adaptive mechanism is employed to selectively inject the fused features into each individual DiT layers, facilitating balanced modeling of identity preservation and motion dynamics. Experimental results validate our model's superiority over the current tuning-free IPT2V methods.

Summary

AI-Generated Summary

PDF92February 24, 2025