판타지 신원: 얼굴 지식 강화 ID 보존 비디오 생성
FantasyID: Face Knowledge Enhanced ID-Preserving Video Generation
February 19, 2025
저자: Yunpeng Zhang, Qiang Wang, Fan Jiang, Yaqi Fan, Mu Xu, Yonggang Qi
cs.AI
초록
최근에는 효과적이고 확장 가능한 이유로, 신원 보존 텍스트-비디오 생성(IPT2V)을 위한 대규모 사전 훈련된 비디오 확산 모델을 적응하는 튜닝 없는 접근 방식이 인기를 얻고 있습니다. 그러나 얼굴 역학을 만족스럽게 유지하면서 신원을 변경하지 않는 것은 여전히 중요한 도전이 남아 있습니다. 본 연구에서는 확산 트랜스포머(DiT)에 기반을 둔 사전 훈련된 비디오 모델의 얼굴 지식을 강화하여 튜닝 없는 IPT2V 프레임워크인 FantasyID를 제안합니다. 본질적으로, 3D 얼굴 지오메트리 사전이 동영상 합성 중에 타당한 얼굴 구조를 보장하기 위해 통합됩니다. 참조 얼굴을 단순히 프레임 간에 복제하는 복사-붙여넣기 바이패스를 학습하지 못하도록 하기 위해, 다양한 2D 얼굴 외관 특징을 포착하기 위해 다중 뷰 얼굴 증강 전략이 고안되어 얼굴 표현과 머리 자세의 역학을 증가시킵니다. 또한, 2D 및 3D 특징을 가이드로 혼합한 후, DiT 레이어에 가이드 신호를 주입하기 위해 단순히 교차 주의를 사용하는 대신, 학습 가능한 레이어 인식적응 메커니즘을 사용하여 퓨즈드 특징을 각각의 개별 DiT 레이어에 선택적으로 주입하여 신원 보존 및 동역학의 균형 잡힌 모델링을 용이하게 합니다. 실험 결과는 우리의 모델이 현재의 튜닝 없는 IPT2V 방법보다 우월함을 입증합니다.
English
Tuning-free approaches adapting large-scale pre-trained video diffusion
models for identity-preserving text-to-video generation (IPT2V) have gained
popularity recently due to their efficacy and scalability. However, significant
challenges remain to achieve satisfied facial dynamics while keeping the
identity unchanged. In this work, we present a novel tuning-free IPT2V
framework by enhancing face knowledge of the pre-trained video model built on
diffusion transformers (DiT), dubbed FantasyID. Essentially, 3D facial geometry
prior is incorporated to ensure plausible facial structures during video
synthesis. To prevent the model from learning copy-paste shortcuts that simply
replicate reference face across frames, a multi-view face augmentation strategy
is devised to capture diverse 2D facial appearance features, hence increasing
the dynamics over the facial expressions and head poses. Additionally, after
blending the 2D and 3D features as guidance, instead of naively employing
cross-attention to inject guidance cues into DiT layers, a learnable
layer-aware adaptive mechanism is employed to selectively inject the fused
features into each individual DiT layers, facilitating balanced modeling of
identity preservation and motion dynamics. Experimental results validate our
model's superiority over the current tuning-free IPT2V methods.Summary
AI-Generated Summary