VividFace: Ein auf Diffusion basierendes hybrides Framework für hochauflösendes Video-Gesichtsaustauschen.

papers.abstract

Video-Gesichtsaustausch wird in verschiedenen Anwendungen immer beliebter, doch bestehende Methoden konzentrieren sich hauptsächlich auf statische Bilder und haben Schwierigkeiten mit dem Video-Gesichtsaustausch aufgrund von zeitlicher Konsistenz und komplexen Szenarien. In diesem Artikel präsentieren wir das erste auf Diffusion basierende Framework, das speziell für den Video-Gesichtsaustausch entwickelt wurde. Unser Ansatz führt ein neuartiges Bild-Video-Hybrid-Trainingsframework ein, das sowohl reichlich vorhandene statische Bilddaten als auch zeitliche Videosequenzen nutzt und die inhärenten Einschränkungen des ausschließlich auf Video basierenden Trainings anspricht. Das Framework integriert ein speziell entwickeltes Diffusionsmodell in Verbindung mit einem VidFaceVAE, das beide Datentypen effektiv verarbeitet, um die zeitliche Kohärenz der generierten Videos besser zu erhalten. Um Identitäts- und Pose-Merkmale weiter zu entflechten, erstellen wir den Attribute-Identity Disentanglement Triplet (AIDT) Datensatz, bei dem jedes Triplet drei Gesichtsbilder enthält, wobei zwei Bilder die gleiche Pose teilen und zwei die gleiche Identität. Dieser Datensatz wird durch eine umfassende Okklusionsaugmentierung verbessert, um die Robustheit gegenüber Okklusionen zu erhöhen. Darüber hinaus integrieren wir 3D-Rekonstruktionstechniken als Eingabebedingung in unser Netzwerk, um große Pose-Variationen zu handhaben. Umfangreiche Experimente zeigen, dass unser Framework eine überlegene Leistung bei der Identitätserhaltung, der zeitlichen Konsistenz und der visuellen Qualität im Vergleich zu bestehenden Methoden erzielt, während weniger Inferenzschritte erforderlich sind. Unser Ansatz mildert effektiv zentrale Herausforderungen beim Video-Gesichtsaustausch, einschließlich zeitlichem Flimmern, Identitätserhaltung sowie Robustheit gegenüber Okklusionen und Pose-Variationen.

English

Video face swapping is becoming increasingly popular across various applications, yet existing methods primarily focus on static images and struggle with video face swapping because of temporal consistency and complex scenarios. In this paper, we present the first diffusion-based framework specifically designed for video face swapping. Our approach introduces a novel image-video hybrid training framework that leverages both abundant static image data and temporal video sequences, addressing the inherent limitations of video-only training. The framework incorporates a specially designed diffusion model coupled with a VidFaceVAE that effectively processes both types of data to better maintain temporal coherence of the generated videos. To further disentangle identity and pose features, we construct the Attribute-Identity Disentanglement Triplet (AIDT) Dataset, where each triplet has three face images, with two images sharing the same pose and two sharing the same identity. Enhanced with a comprehensive occlusion augmentation, this dataset also improves robustness against occlusions. Additionally, we integrate 3D reconstruction techniques as input conditioning to our network for handling large pose variations. Extensive experiments demonstrate that our framework achieves superior performance in identity preservation, temporal consistency, and visual quality compared to existing methods, while requiring fewer inference steps. Our approach effectively mitigates key challenges in video face swapping, including temporal flickering, identity preservation, and robustness to occlusions and pose variations.

VividFace: Ein auf Diffusion basierendes hybrides Framework für hochauflösendes Video-Gesichtsaustauschen.

VividFace: A Diffusion-Based Hybrid Framework for High-Fidelity Video Face Swapping

papers.abstract

Support