VividFace: Un Marco Híbrido Basado en Difusión para el Intercambio de Caras en Video de Alta Fidelidad

Resumen

El intercambio de rostros en videos está ganando popularidad en diversas aplicaciones, sin embargo, los métodos existentes se centran principalmente en imágenes estáticas y tienen dificultades con el intercambio de rostros en videos debido a la consistencia temporal y escenarios complejos. En este documento, presentamos el primer marco basado en difusión diseñado específicamente para el intercambio de rostros en videos. Nuestro enfoque introduce un novedoso marco de entrenamiento híbrido de imagen-video que aprovecha tanto datos abundantes de imágenes estáticas como secuencias temporales de video, abordando las limitaciones inherentes del entrenamiento solo con videos. El marco incorpora un modelo de difusión especialmente diseñado junto con un VidFaceVAE que procesa eficazmente ambos tipos de datos para mantener mejor la coherencia temporal de los videos generados. Para desentrañar aún más las características de identidad y pose, construimos el Conjunto de Datos de Tripletes de Desentrañamiento de Atributos-Identidad (AIDT), donde cada triplete tiene tres imágenes faciales, con dos imágenes compartiendo la misma pose y dos compartiendo la misma identidad. Mejorado con una amplia aumentación de oclusiones, este conjunto de datos también mejora la robustez contra oclusiones. Además, integramos técnicas de reconstrucción 3D como condicionantes de entrada a nuestra red para manejar variaciones de pose amplias. Experimentos extensos demuestran que nuestro marco logra un rendimiento superior en preservación de identidad, consistencia temporal y calidad visual en comparación con los métodos existentes, al tiempo que requiere menos pasos de inferencia. Nuestro enfoque mitiga eficazmente los desafíos clave en el intercambio de rostros en videos, incluyendo parpadeo temporal, preservación de identidad y robustez ante oclusiones y variaciones de pose.

English

Video face swapping is becoming increasingly popular across various applications, yet existing methods primarily focus on static images and struggle with video face swapping because of temporal consistency and complex scenarios. In this paper, we present the first diffusion-based framework specifically designed for video face swapping. Our approach introduces a novel image-video hybrid training framework that leverages both abundant static image data and temporal video sequences, addressing the inherent limitations of video-only training. The framework incorporates a specially designed diffusion model coupled with a VidFaceVAE that effectively processes both types of data to better maintain temporal coherence of the generated videos. To further disentangle identity and pose features, we construct the Attribute-Identity Disentanglement Triplet (AIDT) Dataset, where each triplet has three face images, with two images sharing the same pose and two sharing the same identity. Enhanced with a comprehensive occlusion augmentation, this dataset also improves robustness against occlusions. Additionally, we integrate 3D reconstruction techniques as input conditioning to our network for handling large pose variations. Extensive experiments demonstrate that our framework achieves superior performance in identity preservation, temporal consistency, and visual quality compared to existing methods, while requiring fewer inference steps. Our approach effectively mitigates key challenges in video face swapping, including temporal flickering, identity preservation, and robustness to occlusions and pose variations.

VividFace: Un Marco Híbrido Basado en Difusión para el Intercambio de Caras en Video de Alta Fidelidad

VividFace: A Diffusion-Based Hybrid Framework for High-Fidelity Video Face Swapping

Resumen

Support