VividFace: Un Marco Híbrido Basado en Difusión para el Intercambio de Caras en Video de Alta Fidelidad
VividFace: A Diffusion-Based Hybrid Framework for High-Fidelity Video Face Swapping
December 15, 2024
Autores: Hao Shao, Shulun Wang, Yang Zhou, Guanglu Song, Dailan He, Shuo Qin, Zhuofan Zong, Bingqi Ma, Yu Liu, Hongsheng Li
cs.AI
Resumen
El intercambio de rostros en videos está ganando popularidad en diversas aplicaciones, sin embargo, los métodos existentes se centran principalmente en imágenes estáticas y tienen dificultades con el intercambio de rostros en videos debido a la consistencia temporal y escenarios complejos. En este documento, presentamos el primer marco basado en difusión diseñado específicamente para el intercambio de rostros en videos. Nuestro enfoque introduce un novedoso marco de entrenamiento híbrido de imagen-video que aprovecha tanto datos abundantes de imágenes estáticas como secuencias temporales de video, abordando las limitaciones inherentes del entrenamiento solo con videos. El marco incorpora un modelo de difusión especialmente diseñado junto con un VidFaceVAE que procesa eficazmente ambos tipos de datos para mantener mejor la coherencia temporal de los videos generados. Para desentrañar aún más las características de identidad y pose, construimos el Conjunto de Datos de Tripletes de Desentrañamiento de Atributos-Identidad (AIDT), donde cada triplete tiene tres imágenes faciales, con dos imágenes compartiendo la misma pose y dos compartiendo la misma identidad. Mejorado con una amplia aumentación de oclusiones, este conjunto de datos también mejora la robustez contra oclusiones. Además, integramos técnicas de reconstrucción 3D como condicionantes de entrada a nuestra red para manejar variaciones de pose amplias. Experimentos extensos demuestran que nuestro marco logra un rendimiento superior en preservación de identidad, consistencia temporal y calidad visual en comparación con los métodos existentes, al tiempo que requiere menos pasos de inferencia. Nuestro enfoque mitiga eficazmente los desafíos clave en el intercambio de rostros en videos, incluyendo parpadeo temporal, preservación de identidad y robustez ante oclusiones y variaciones de pose.
English
Video face swapping is becoming increasingly popular across various
applications, yet existing methods primarily focus on static images and
struggle with video face swapping because of temporal consistency and complex
scenarios. In this paper, we present the first diffusion-based framework
specifically designed for video face swapping. Our approach introduces a novel
image-video hybrid training framework that leverages both abundant static image
data and temporal video sequences, addressing the inherent limitations of
video-only training. The framework incorporates a specially designed diffusion
model coupled with a VidFaceVAE that effectively processes both types of data
to better maintain temporal coherence of the generated videos. To further
disentangle identity and pose features, we construct the Attribute-Identity
Disentanglement Triplet (AIDT) Dataset, where each triplet has three face
images, with two images sharing the same pose and two sharing the same
identity. Enhanced with a comprehensive occlusion augmentation, this dataset
also improves robustness against occlusions. Additionally, we integrate 3D
reconstruction techniques as input conditioning to our network for handling
large pose variations. Extensive experiments demonstrate that our framework
achieves superior performance in identity preservation, temporal consistency,
and visual quality compared to existing methods, while requiring fewer
inference steps. Our approach effectively mitigates key challenges in video
face swapping, including temporal flickering, identity preservation, and
robustness to occlusions and pose variations.Summary
AI-Generated Summary