VividFace: Een Diffusie-Gebaseerd Hybride Framework voor Hoogwaardige Video Gezichtsvervanging
VividFace: A Diffusion-Based Hybrid Framework for High-Fidelity Video Face Swapping
December 15, 2024
Auteurs: Hao Shao, Shulun Wang, Yang Zhou, Guanglu Song, Dailan He, Shuo Qin, Zhuofan Zong, Bingqi Ma, Yu Liu, Hongsheng Li
cs.AI
Samenvatting
Video-gezichtsvervanging wordt steeds populairder in verschillende toepassingen, maar bestaande methoden richten zich voornamelijk op statische beelden en hebben moeite met video-gezichtsvervanging vanwege temporele consistentie en complexe scenario's. In dit artikel presenteren we het eerste diffusie-gebaseerde kader dat specifiek is ontworpen voor video-gezichtsvervanging. Onze aanpak introduceert een nieuw beeld-video hybride trainingskader dat zowel overvloedige statische beeldgegevens als temporele videosequenties benut, waardoor de inherente beperkingen van alleen video-training worden aangepakt. Het kader omvat een speciaal ontworpen diffusiemodel gekoppeld aan een VidFaceVAE dat effectief beide soorten gegevens verwerkt om de temporele coherentie van de gegenereerde video's beter te behouden. Om identiteits- en posekenmerken verder te ontwarren, construeren we de Attribuut-Identiteit Ontwarrende Triplet (AIDT) Dataset, waarbij elk triplet drie gezichtsbeelden heeft, waarbij twee beelden dezelfde pose delen en twee dezelfde identiteit delen. Versterkt met een uitgebreide occlusie-augmentatie, verbetert deze dataset ook de robuustheid tegen occlusies. Bovendien integreren we 3D-reconstructietechnieken als invoerconditionering voor ons netwerk om grote posevariaties aan te pakken. Uitgebreide experimenten tonen aan dat ons kader superieure prestaties behaalt op het gebied van identiteitsbehoud, temporele consistentie en visuele kwaliteit in vergelijking met bestaande methoden, met minder inferentiestappen. Onze aanpak vermindert effectief belangrijke uitdagingen bij video-gezichtsvervanging, waaronder temporeel flikkeren, identiteitsbehoud en robuustheid tegen occlusies en posevariaties.
English
Video face swapping is becoming increasingly popular across various
applications, yet existing methods primarily focus on static images and
struggle with video face swapping because of temporal consistency and complex
scenarios. In this paper, we present the first diffusion-based framework
specifically designed for video face swapping. Our approach introduces a novel
image-video hybrid training framework that leverages both abundant static image
data and temporal video sequences, addressing the inherent limitations of
video-only training. The framework incorporates a specially designed diffusion
model coupled with a VidFaceVAE that effectively processes both types of data
to better maintain temporal coherence of the generated videos. To further
disentangle identity and pose features, we construct the Attribute-Identity
Disentanglement Triplet (AIDT) Dataset, where each triplet has three face
images, with two images sharing the same pose and two sharing the same
identity. Enhanced with a comprehensive occlusion augmentation, this dataset
also improves robustness against occlusions. Additionally, we integrate 3D
reconstruction techniques as input conditioning to our network for handling
large pose variations. Extensive experiments demonstrate that our framework
achieves superior performance in identity preservation, temporal consistency,
and visual quality compared to existing methods, while requiring fewer
inference steps. Our approach effectively mitigates key challenges in video
face swapping, including temporal flickering, identity preservation, and
robustness to occlusions and pose variations.