Préserver le réalisme vidéo source : Échange de visages haute fidélité pour une qualité cinématographique
Preserving Source Video Realism: High-Fidelity Face Swapping for Cinematic Quality
December 8, 2025
papers.authors: Zekai Luo, Zongze Du, Zhouhang Zhu, Hao Zhong, Muzhi Zhu, Wen Wang, Yuling Xi, Chenchen Jing, Hao Chen, Chunhua Shen
cs.AI
papers.abstract
Le remplacement de visage vidéo est crucial dans la production cinématographique et divertissement, où atteindre une haute fidélité et une cohérence temporelle sur des séquences vidéo longues et complexes reste un défi majeur. Inspirés par les récentes avancées en édition d'images guidée par référence, nous explorons si les attributs visuels riches des vidéos sources peuvent être similairement exploités pour améliorer à la fois la fidélité et la cohérence temporelle dans le remplacement de visage vidéo. Forts de cette intuition, ce travail présente LivingSwap, le premier modèle de remplacement de visage guidé par référence vidéo. Notre approche utilise des images-clés comme signaux de conditionnement pour injecter l'identité cible, permettant un éditing flexible et contrôlable. En combinant le conditionnement par images-clés avec le guidage par référence vidéo, le modèle effectue un raccordement temporel pour assurer une préservation stable de l'identité et une reconstruction haute fidélité sur de longues séquences vidéo. Pour pallier le manque de données pour l'entraînement guidé par référence, nous construisons un jeu de données apparié de remplacement de visage, Face2Face, et inversons en outre les paires de données pour garantir une supervision de vérité terrain fiable. Des expériences approfondies démontrent que notre méthode obtient des résultats à la pointe de l'état de l'art, intégrant de manière transparente l'identité cible avec les expressions, l'éclairage et les mouvements de la vidéo source, tout en réduisant significativement l'effort manuel dans les workflows de production. Page web du projet : https://aim-uofa.github.io/LivingSwap
English
Video face swapping is crucial in film and entertainment production, where achieving high fidelity and temporal consistency over long and complex video sequences remains a significant challenge. Inspired by recent advances in reference-guided image editing, we explore whether rich visual attributes from source videos can be similarly leveraged to enhance both fidelity and temporal coherence in video face swapping. Building on this insight, this work presents LivingSwap, the first video reference guided face swapping model. Our approach employs keyframes as conditioning signals to inject the target identity, enabling flexible and controllable editing. By combining keyframe conditioning with video reference guidance, the model performs temporal stitching to ensure stable identity preservation and high-fidelity reconstruction across long video sequences. To address the scarcity of data for reference-guided training, we construct a paired face-swapping dataset, Face2Face, and further reverse the data pairs to ensure reliable ground-truth supervision. Extensive experiments demonstrate that our method achieves state-of-the-art results, seamlessly integrating the target identity with the source video's expressions, lighting, and motion, while significantly reducing manual effort in production workflows. Project webpage: https://aim-uofa.github.io/LivingSwap