VividFace: Ein auf Diffusion basierendes hybrides Framework für hochauflösendes Video-Gesichtsaustauschen.
VividFace: A Diffusion-Based Hybrid Framework for High-Fidelity Video Face Swapping
December 15, 2024
Autoren: Hao Shao, Shulun Wang, Yang Zhou, Guanglu Song, Dailan He, Shuo Qin, Zhuofan Zong, Bingqi Ma, Yu Liu, Hongsheng Li
cs.AI
Zusammenfassung
Video-Gesichtsaustausch wird in verschiedenen Anwendungen immer beliebter, doch bestehende Methoden konzentrieren sich hauptsächlich auf statische Bilder und haben Schwierigkeiten mit dem Video-Gesichtsaustausch aufgrund von zeitlicher Konsistenz und komplexen Szenarien. In diesem Artikel präsentieren wir das erste auf Diffusion basierende Framework, das speziell für den Video-Gesichtsaustausch entwickelt wurde. Unser Ansatz führt ein neuartiges Bild-Video-Hybrid-Trainingsframework ein, das sowohl reichlich vorhandene statische Bilddaten als auch zeitliche Videosequenzen nutzt und die inhärenten Einschränkungen des ausschließlich auf Video basierenden Trainings anspricht. Das Framework integriert ein speziell entwickeltes Diffusionsmodell in Verbindung mit einem VidFaceVAE, das beide Datentypen effektiv verarbeitet, um die zeitliche Kohärenz der generierten Videos besser zu erhalten. Um Identitäts- und Pose-Merkmale weiter zu entflechten, erstellen wir den Attribute-Identity Disentanglement Triplet (AIDT) Datensatz, bei dem jedes Triplet drei Gesichtsbilder enthält, wobei zwei Bilder die gleiche Pose teilen und zwei die gleiche Identität. Dieser Datensatz wird durch eine umfassende Okklusionsaugmentierung verbessert, um die Robustheit gegenüber Okklusionen zu erhöhen. Darüber hinaus integrieren wir 3D-Rekonstruktionstechniken als Eingabebedingung in unser Netzwerk, um große Pose-Variationen zu handhaben. Umfangreiche Experimente zeigen, dass unser Framework eine überlegene Leistung bei der Identitätserhaltung, der zeitlichen Konsistenz und der visuellen Qualität im Vergleich zu bestehenden Methoden erzielt, während weniger Inferenzschritte erforderlich sind. Unser Ansatz mildert effektiv zentrale Herausforderungen beim Video-Gesichtsaustausch, einschließlich zeitlichem Flimmern, Identitätserhaltung sowie Robustheit gegenüber Okklusionen und Pose-Variationen.
English
Video face swapping is becoming increasingly popular across various
applications, yet existing methods primarily focus on static images and
struggle with video face swapping because of temporal consistency and complex
scenarios. In this paper, we present the first diffusion-based framework
specifically designed for video face swapping. Our approach introduces a novel
image-video hybrid training framework that leverages both abundant static image
data and temporal video sequences, addressing the inherent limitations of
video-only training. The framework incorporates a specially designed diffusion
model coupled with a VidFaceVAE that effectively processes both types of data
to better maintain temporal coherence of the generated videos. To further
disentangle identity and pose features, we construct the Attribute-Identity
Disentanglement Triplet (AIDT) Dataset, where each triplet has three face
images, with two images sharing the same pose and two sharing the same
identity. Enhanced with a comprehensive occlusion augmentation, this dataset
also improves robustness against occlusions. Additionally, we integrate 3D
reconstruction techniques as input conditioning to our network for handling
large pose variations. Extensive experiments demonstrate that our framework
achieves superior performance in identity preservation, temporal consistency,
and visual quality compared to existing methods, while requiring fewer
inference steps. Our approach effectively mitigates key challenges in video
face swapping, including temporal flickering, identity preservation, and
robustness to occlusions and pose variations.Summary
AI-Generated Summary