VividFace: Um Framework Híbrido Baseado em Difusão para Troca de Rosto em Vídeo de Alta Fidelidade

Resumo

A troca de rostos em vídeos está se tornando cada vez mais popular em diversas aplicações, no entanto, os métodos existentes geralmente se concentram em imagens estáticas e enfrentam dificuldades na troca de rostos em vídeos devido à consistência temporal e cenários complexos. Neste artigo, apresentamos o primeiro framework baseado em difusão especificamente projetado para troca de rostos em vídeos. Nossa abordagem introduz um novo framework de treinamento híbrido de imagem-vídeo que aproveita tanto dados abundantes de imagens estáticas quanto sequências temporais de vídeo, abordando as limitações inerentes do treinamento apenas com vídeos. O framework incorpora um modelo de difusão especialmente projetado acoplado a um VidFaceVAE que processa efetivamente ambos os tipos de dados para manter melhor a coerência temporal dos vídeos gerados. Para desvencilhar ainda mais as características de identidade e pose, construímos o Conjunto de Dados de Triplas de Desvencilhamento de Atributo-Identidade (AIDT), onde cada tripla possui três imagens faciais, com duas imagens compartilhando a mesma pose e duas compartilhando a mesma identidade. Aprimorado com uma ampla gama de oclusões, este conjunto de dados também melhora a robustez contra oclusões. Além disso, integramos técnicas de reconstrução 3D como condicionamento de entrada para nossa rede lidar com grandes variações de pose. Experimentos extensivos demonstram que nosso framework alcança desempenho superior na preservação de identidade, consistência temporal e qualidade visual em comparação com os métodos existentes, exigindo menos passos de inferência. Nossa abordagem mitiga efetivamente desafios-chave na troca de rostos em vídeos, incluindo cintilação temporal, preservação de identidade e robustez a oclusões e variações de pose.

English

Video face swapping is becoming increasingly popular across various applications, yet existing methods primarily focus on static images and struggle with video face swapping because of temporal consistency and complex scenarios. In this paper, we present the first diffusion-based framework specifically designed for video face swapping. Our approach introduces a novel image-video hybrid training framework that leverages both abundant static image data and temporal video sequences, addressing the inherent limitations of video-only training. The framework incorporates a specially designed diffusion model coupled with a VidFaceVAE that effectively processes both types of data to better maintain temporal coherence of the generated videos. To further disentangle identity and pose features, we construct the Attribute-Identity Disentanglement Triplet (AIDT) Dataset, where each triplet has three face images, with two images sharing the same pose and two sharing the same identity. Enhanced with a comprehensive occlusion augmentation, this dataset also improves robustness against occlusions. Additionally, we integrate 3D reconstruction techniques as input conditioning to our network for handling large pose variations. Extensive experiments demonstrate that our framework achieves superior performance in identity preservation, temporal consistency, and visual quality compared to existing methods, while requiring fewer inference steps. Our approach effectively mitigates key challenges in video face swapping, including temporal flickering, identity preservation, and robustness to occlusions and pose variations.

VividFace: Um Framework Híbrido Baseado em Difusão para Troca de Rosto em Vídeo de Alta Fidelidade

VividFace: A Diffusion-Based Hybrid Framework for High-Fidelity Video Face Swapping

Resumo

Support