Bewahrung der Realitätstreue des Quellvideos: Hochfideler Gesichtstausch für cineastische Qualität
Preserving Source Video Realism: High-Fidelity Face Swapping for Cinematic Quality
December 8, 2025
papers.authors: Zekai Luo, Zongze Du, Zhouhang Zhu, Hao Zhong, Muzhi Zhu, Wen Wang, Yuling Xi, Chenchen Jing, Hao Chen, Chunhua Shen
cs.AI
papers.abstract
Video-Gesichtstausch ist entscheidend in der Film- und Unterhaltungsproduktion, wobei die Erzielung hoher Wiedergabetreue und zeitlicher Konsistenz über lange und komplexe Videosequenzen hinweg eine große Herausforderung bleibt. Inspiriert von jüngsten Fortschritten im referenzgestützten Bildbearbeitung, untersuchen wir, ob reiche visuelle Attribute aus Quellvideos ähnlich genutzt werden können, um sowohl die Wiedergabetreue als auch die zeitliche Kohärenz beim Video-Gesichtstausch zu verbessern. Aufbauend auf dieser Erkenntnis stellt diese Arbeit LivingSwap vor, das erste videoreferenzgesteuerte Gesichtstausch-Modell. Unser Ansatz nutzt Keyframes als Konditionierungssignale, um die Zielidentität einzubringen, und ermöglicht so flexible und steuerbare Bearbeitung. Durch die Kombination von Keyframe-Konditionierung mit Video-Referenzführung führt das Modell eine temporale Verknüpfung durch, um eine stabile Identitätsbewahrung und hochwertige Rekonstruktion über lange Videosequenzen hinweg zu gewährleisten. Um den Mangel an Daten für das referenzgestützte Training zu beheben, erstellen wir einen gepaarten Gesichtstausch-Datensatz, Face2Face, und kehren die Datenpaare weiter um, um eine zuverlässige Grundwahrheitsüberwachung sicherzustellen. Umfangreiche Experimente zeigen, dass unsere Methode state-of-the-art Ergebnisse erzielt, die Zielidentität nahtlos mit den Ausdrücken, der Beleuchtung und der Bewegung des Quellvideos integriert und gleichzeitig den manuellen Aufwand in Produktionsworkflows erheblich reduziert. Projektwebseite: https://aim-uofa.github.io/LivingSwap
English
Video face swapping is crucial in film and entertainment production, where achieving high fidelity and temporal consistency over long and complex video sequences remains a significant challenge. Inspired by recent advances in reference-guided image editing, we explore whether rich visual attributes from source videos can be similarly leveraged to enhance both fidelity and temporal coherence in video face swapping. Building on this insight, this work presents LivingSwap, the first video reference guided face swapping model. Our approach employs keyframes as conditioning signals to inject the target identity, enabling flexible and controllable editing. By combining keyframe conditioning with video reference guidance, the model performs temporal stitching to ensure stable identity preservation and high-fidelity reconstruction across long video sequences. To address the scarcity of data for reference-guided training, we construct a paired face-swapping dataset, Face2Face, and further reverse the data pairs to ensure reliable ground-truth supervision. Extensive experiments demonstrate that our method achieves state-of-the-art results, seamlessly integrating the target identity with the source video's expressions, lighting, and motion, while significantly reducing manual effort in production workflows. Project webpage: https://aim-uofa.github.io/LivingSwap