소스 영상의 사실감 유지: 영화적 품질을 위한 고품질 얼굴 교체
Preserving Source Video Realism: High-Fidelity Face Swapping for Cinematic Quality
December 8, 2025
저자: Zekai Luo, Zongze Du, Zhouhang Zhu, Hao Zhong, Muzhi Zhu, Wen Wang, Yuling Xi, Chenchen Jing, Hao Chen, Chunhua Shen
cs.AI
초록
비디오 얼굴 교체 기술은 영화 및 엔터테인먼트 제작에서 중요한 요소로, 길고 복잡한 비디오 시퀀스에서 높은 정확도와 시간적 일관성을 달성하는 것은 여전히 큰 과제로 남아 있습니다. 최근 참조 기반 이미지 편집 기술의 발전에 영감을 받아, 소스 비디오의 풍부한 시각적 속성을 유사하게 활용하여 비디오 얼굴 교체의 정확도와 시간적 일관성을 모두 향상시킬 수 있는지 탐구합니다. 이러한 통찰을 바탕으로, 본 연구는 비디오 참조 기반 얼굴 교체 모델인 LivingSwap을 최초로 제안합니다. 우리의 접근 방식은 키프레임을 조건 신호로 활용하여 대상 신원을 주입함으로써 유연하고 제어 가능한 편집을 가능하게 합니다. 키프레임 조건 설정과 비디오 참조 안내를 결합함으로써, 모델은 시간적 스티칭을 수행하여 긴 비디오 시퀀스 전반에 걸쳐 안정적인 신원 보존과 높은 정확도의 재구성을 보장합니다. 참조 기반 훈련을 위한 데이터 부족 문제를 해결하기 위해, 우리는 paired 얼굴 교체 데이터셋인 Face2Face를 구축하고 데이터 쌍을 반전시켜 신뢰할 수 있는 ground-truth supervision을 보장합니다. 광범위한 실험을 통해 우리의 방법이 최첨단 결과를 달성하며, 대상 신원을 소스 비디오의 표정, 조명, 동작에 자연스럽게 통합하고 제작 워크플로우에서의 수작업을 크게 줄일 수 있음을 입증합니다. 프로젝트 웹페이지: https://aim-uofa.github.io/LivingSwap
English
Video face swapping is crucial in film and entertainment production, where achieving high fidelity and temporal consistency over long and complex video sequences remains a significant challenge. Inspired by recent advances in reference-guided image editing, we explore whether rich visual attributes from source videos can be similarly leveraged to enhance both fidelity and temporal coherence in video face swapping. Building on this insight, this work presents LivingSwap, the first video reference guided face swapping model. Our approach employs keyframes as conditioning signals to inject the target identity, enabling flexible and controllable editing. By combining keyframe conditioning with video reference guidance, the model performs temporal stitching to ensure stable identity preservation and high-fidelity reconstruction across long video sequences. To address the scarcity of data for reference-guided training, we construct a paired face-swapping dataset, Face2Face, and further reverse the data pairs to ensure reliable ground-truth supervision. Extensive experiments demonstrate that our method achieves state-of-the-art results, seamlessly integrating the target identity with the source video's expressions, lighting, and motion, while significantly reducing manual effort in production workflows. Project webpage: https://aim-uofa.github.io/LivingSwap