VividFace: Een Diffusie-Gebaseerd Hybride Framework voor Hoogwaardige Video Gezichtsvervanging

Samenvatting

Video-gezichtsvervanging wordt steeds populairder in verschillende toepassingen, maar bestaande methoden richten zich voornamelijk op statische beelden en hebben moeite met video-gezichtsvervanging vanwege temporele consistentie en complexe scenario's. In dit artikel presenteren we het eerste diffusie-gebaseerde kader dat specifiek is ontworpen voor video-gezichtsvervanging. Onze aanpak introduceert een nieuw beeld-video hybride trainingskader dat zowel overvloedige statische beeldgegevens als temporele videosequenties benut, waardoor de inherente beperkingen van alleen video-training worden aangepakt. Het kader omvat een speciaal ontworpen diffusiemodel gekoppeld aan een VidFaceVAE dat effectief beide soorten gegevens verwerkt om de temporele coherentie van de gegenereerde video's beter te behouden. Om identiteits- en posekenmerken verder te ontwarren, construeren we de Attribuut-Identiteit Ontwarrende Triplet (AIDT) Dataset, waarbij elk triplet drie gezichtsbeelden heeft, waarbij twee beelden dezelfde pose delen en twee dezelfde identiteit delen. Versterkt met een uitgebreide occlusie-augmentatie, verbetert deze dataset ook de robuustheid tegen occlusies. Bovendien integreren we 3D-reconstructietechnieken als invoerconditionering voor ons netwerk om grote posevariaties aan te pakken. Uitgebreide experimenten tonen aan dat ons kader superieure prestaties behaalt op het gebied van identiteitsbehoud, temporele consistentie en visuele kwaliteit in vergelijking met bestaande methoden, met minder inferentiestappen. Onze aanpak vermindert effectief belangrijke uitdagingen bij video-gezichtsvervanging, waaronder temporeel flikkeren, identiteitsbehoud en robuustheid tegen occlusies en posevariaties.

English

Video face swapping is becoming increasingly popular across various applications, yet existing methods primarily focus on static images and struggle with video face swapping because of temporal consistency and complex scenarios. In this paper, we present the first diffusion-based framework specifically designed for video face swapping. Our approach introduces a novel image-video hybrid training framework that leverages both abundant static image data and temporal video sequences, addressing the inherent limitations of video-only training. The framework incorporates a specially designed diffusion model coupled with a VidFaceVAE that effectively processes both types of data to better maintain temporal coherence of the generated videos. To further disentangle identity and pose features, we construct the Attribute-Identity Disentanglement Triplet (AIDT) Dataset, where each triplet has three face images, with two images sharing the same pose and two sharing the same identity. Enhanced with a comprehensive occlusion augmentation, this dataset also improves robustness against occlusions. Additionally, we integrate 3D reconstruction techniques as input conditioning to our network for handling large pose variations. Extensive experiments demonstrate that our framework achieves superior performance in identity preservation, temporal consistency, and visual quality compared to existing methods, while requiring fewer inference steps. Our approach effectively mitigates key challenges in video face swapping, including temporal flickering, identity preservation, and robustness to occlusions and pose variations.

VividFace: Een Diffusie-Gebaseerd Hybride Framework voor Hoogwaardige Video Gezichtsvervanging

VividFace: A Diffusion-Based Hybrid Framework for High-Fidelity Video Face Swapping

Samenvatting

Support