ChatPaper.aiChatPaper

FantasyID: Генерация видео с сохранением идентификации, усиленная знаниями о лице

FantasyID: Face Knowledge Enhanced ID-Preserving Video Generation

February 19, 2025
Авторы: Yunpeng Zhang, Qiang Wang, Fan Jiang, Yaqi Fan, Mu Xu, Yonggang Qi
cs.AI

Аннотация

Подходы без тонкой настройки, адаптирующие крупномасштабные предобученные модели диффузии видео для генерации видео с сохранением идентичности на основе текста (IPT2V), недавно приобрели популярность благодаря своей эффективности и масштабируемости. Однако остаются значительные проблемы в достижении удовлетворительной динамики лица при сохранении идентичности. В данной работе мы представляем новую настройку без тонкой настройки IPT2V, улучшая знания о лице в предобученной видео-модели, построенной на основе трансформеров диффузии (DiT), названной FantasyID. По сути, 3D-геометрия лица используется для обеспечения правдоподобных структур лица при синтезе видео. Чтобы предотвратить обучение модели на копировании и вставке, которые просто дублируют эталонное лицо по кадрам, разработана стратегия многовидового увеличения лица для захвата разнообразных 2D-признаков внешнего вида лица, что увеличивает динамику выражений лица и поз головы. Кроме того, после объединения 2D и 3D признаков в качестве руководства, вместо простого использования кросс-внимания для введения руководящих сигналов в слои DiT, используется обучаемый механизм адаптации на уровне слоев для выборочного введения объединенных признаков в каждый отдельный слой DiT, что способствует сбалансированному моделированию сохранения идентичности и динамики движения. Экспериментальные результаты подтверждают превосходство нашей модели над текущими методами IPT2V без тонкой настройки.
English
Tuning-free approaches adapting large-scale pre-trained video diffusion models for identity-preserving text-to-video generation (IPT2V) have gained popularity recently due to their efficacy and scalability. However, significant challenges remain to achieve satisfied facial dynamics while keeping the identity unchanged. In this work, we present a novel tuning-free IPT2V framework by enhancing face knowledge of the pre-trained video model built on diffusion transformers (DiT), dubbed FantasyID. Essentially, 3D facial geometry prior is incorporated to ensure plausible facial structures during video synthesis. To prevent the model from learning copy-paste shortcuts that simply replicate reference face across frames, a multi-view face augmentation strategy is devised to capture diverse 2D facial appearance features, hence increasing the dynamics over the facial expressions and head poses. Additionally, after blending the 2D and 3D features as guidance, instead of naively employing cross-attention to inject guidance cues into DiT layers, a learnable layer-aware adaptive mechanism is employed to selectively inject the fused features into each individual DiT layers, facilitating balanced modeling of identity preservation and motion dynamics. Experimental results validate our model's superiority over the current tuning-free IPT2V methods.

Summary

AI-Generated Summary

PDF92February 24, 2025