ソース映像のリアリズム維持:映画品質を実現する高精細フェイススワップ技術
Preserving Source Video Realism: High-Fidelity Face Swapping for Cinematic Quality
December 8, 2025
著者: Zekai Luo, Zongze Du, Zhouhang Zhu, Hao Zhong, Muzhi Zhu, Wen Wang, Yuling Xi, Chenchen Jing, Hao Chen, Chunhua Shen
cs.AI
要旨
ビデオ顔交換技術は、映画やエンターテインメント制作において重要な役割を果たしており、長く複雑なビデオシーケンスにおいて高精細度と時間的一貫性を実現することは依然として大きな課題である。最近の参照画像誘導型画像編集の進展に着想を得て、我々はソースビデオから豊富な視覚的属性を同様に活用することで、ビデオ顔交換の忠実度と時間的一貫性の両方を強化できるかどうかを探求する。この知見に基づき、本論文は初のビデオ参照誘導型顔交換モデルであるLivingSwapを提案する。本手法はキーフレームを条件付け信号として用いて対象人物のIDを注入し、柔軟で制御可能な編集を実現する。キーフレーム条件付けとビデオ参照誘導を組み合わせることで、モデルは時間的接合を行い、長いビデオシーケンスにわたる安定したID保持と高精細な再構成を保証する。参照誘導型学習のためのデータ不足に対処するため、我々はペア化された顔交換データセットFace2Faceを構築し、データペアを反転させることで信頼性の高い教師信号を確保した。大規模な実験により、本手法が最先端の結果を達成し、対象人物のIDをソースビデオの表情・照明・動きとシームレスに統合するとともに、制作ワークフローにおける手作業を大幅に削減できることを実証した。プロジェクトウェブページ: https://aim-uofa.github.io/LivingSwap
English
Video face swapping is crucial in film and entertainment production, where achieving high fidelity and temporal consistency over long and complex video sequences remains a significant challenge. Inspired by recent advances in reference-guided image editing, we explore whether rich visual attributes from source videos can be similarly leveraged to enhance both fidelity and temporal coherence in video face swapping. Building on this insight, this work presents LivingSwap, the first video reference guided face swapping model. Our approach employs keyframes as conditioning signals to inject the target identity, enabling flexible and controllable editing. By combining keyframe conditioning with video reference guidance, the model performs temporal stitching to ensure stable identity preservation and high-fidelity reconstruction across long video sequences. To address the scarcity of data for reference-guided training, we construct a paired face-swapping dataset, Face2Face, and further reverse the data pairs to ensure reliable ground-truth supervision. Extensive experiments demonstrate that our method achieves state-of-the-art results, seamlessly integrating the target identity with the source video's expressions, lighting, and motion, while significantly reducing manual effort in production workflows. Project webpage: https://aim-uofa.github.io/LivingSwap