VividFace: Um Framework Híbrido Baseado em Difusão para Troca de Rosto em Vídeo de Alta Fidelidade
VividFace: A Diffusion-Based Hybrid Framework for High-Fidelity Video Face Swapping
December 15, 2024
Autores: Hao Shao, Shulun Wang, Yang Zhou, Guanglu Song, Dailan He, Shuo Qin, Zhuofan Zong, Bingqi Ma, Yu Liu, Hongsheng Li
cs.AI
Resumo
A troca de rostos em vídeos está se tornando cada vez mais popular em diversas aplicações, no entanto, os métodos existentes geralmente se concentram em imagens estáticas e enfrentam dificuldades na troca de rostos em vídeos devido à consistência temporal e cenários complexos. Neste artigo, apresentamos o primeiro framework baseado em difusão especificamente projetado para troca de rostos em vídeos. Nossa abordagem introduz um novo framework de treinamento híbrido de imagem-vídeo que aproveita tanto dados abundantes de imagens estáticas quanto sequências temporais de vídeo, abordando as limitações inerentes do treinamento apenas com vídeos. O framework incorpora um modelo de difusão especialmente projetado acoplado a um VidFaceVAE que processa efetivamente ambos os tipos de dados para manter melhor a coerência temporal dos vídeos gerados. Para desvencilhar ainda mais as características de identidade e pose, construímos o Conjunto de Dados de Triplas de Desvencilhamento de Atributo-Identidade (AIDT), onde cada tripla possui três imagens faciais, com duas imagens compartilhando a mesma pose e duas compartilhando a mesma identidade. Aprimorado com uma ampla gama de oclusões, este conjunto de dados também melhora a robustez contra oclusões. Além disso, integramos técnicas de reconstrução 3D como condicionamento de entrada para nossa rede lidar com grandes variações de pose. Experimentos extensivos demonstram que nosso framework alcança desempenho superior na preservação de identidade, consistência temporal e qualidade visual em comparação com os métodos existentes, exigindo menos passos de inferência. Nossa abordagem mitiga efetivamente desafios-chave na troca de rostos em vídeos, incluindo cintilação temporal, preservação de identidade e robustez a oclusões e variações de pose.
English
Video face swapping is becoming increasingly popular across various
applications, yet existing methods primarily focus on static images and
struggle with video face swapping because of temporal consistency and complex
scenarios. In this paper, we present the first diffusion-based framework
specifically designed for video face swapping. Our approach introduces a novel
image-video hybrid training framework that leverages both abundant static image
data and temporal video sequences, addressing the inherent limitations of
video-only training. The framework incorporates a specially designed diffusion
model coupled with a VidFaceVAE that effectively processes both types of data
to better maintain temporal coherence of the generated videos. To further
disentangle identity and pose features, we construct the Attribute-Identity
Disentanglement Triplet (AIDT) Dataset, where each triplet has three face
images, with two images sharing the same pose and two sharing the same
identity. Enhanced with a comprehensive occlusion augmentation, this dataset
also improves robustness against occlusions. Additionally, we integrate 3D
reconstruction techniques as input conditioning to our network for handling
large pose variations. Extensive experiments demonstrate that our framework
achieves superior performance in identity preservation, temporal consistency,
and visual quality compared to existing methods, while requiring fewer
inference steps. Our approach effectively mitigates key challenges in video
face swapping, including temporal flickering, identity preservation, and
robustness to occlusions and pose variations.Summary
AI-Generated Summary