Сохранение реалистичности исходного видео: высококачественная замена лиц для кинематографического качества
Preserving Source Video Realism: High-Fidelity Face Swapping for Cinematic Quality
December 8, 2025
Авторы: Zekai Luo, Zongze Du, Zhouhang Zhu, Hao Zhong, Muzhi Zhu, Wen Wang, Yuling Xi, Chenchen Jing, Hao Chen, Chunhua Shen
cs.AI
Аннотация
Замена лиц в видео играет ключевую роль в кинопроизводстве и индустрии развлечений, однако достижение высокой точности и временной согласованности в длинных и сложных видеопоследовательностях остается серьезной проблемой. Вдохновленные последними достижениями в редактировании изображений с управлением по референсу, мы исследуем возможность аналогичного использования богатых визуальных атрибутов исходных видео для улучшения как точности, так и временной согласованности при замене лиц. На основе этого подхода представлена модель LivingSwap — первая система замены лиц в видео с управлением по видеореференсу. Наш метод использует ключевые кадры в качестве управляющих сигналов для внедрения целевой идентичности, обеспечивая гибкое и контролируемое редактирование. Комбинируя conditioning по ключевым кадрам с управлением по видеореференсу, модель выполняет временное сшивание для обеспечения стабильного сохранения идентичности и высокоточной реконструкции в длинных видеопоследовательностях. Для решения проблемы нехватки данных для обучения с управлением по референсу мы создали парный датасет для замены лиц Face2Face и дополнительно инвертировали пары данных для обеспечения надежного ground-truth контроля. Многочисленные эксперименты демонстрируют, что наш метод достигает state-of-the-art результатов, бесшовно интегрируя целевую идентичность с выражением лица, освещением и движением исходного видео, одновременно значительно сокращая ручной труд в производственных процессах. Страница проекта: https://aim-uofa.github.io/LivingSwap
English
Video face swapping is crucial in film and entertainment production, where achieving high fidelity and temporal consistency over long and complex video sequences remains a significant challenge. Inspired by recent advances in reference-guided image editing, we explore whether rich visual attributes from source videos can be similarly leveraged to enhance both fidelity and temporal coherence in video face swapping. Building on this insight, this work presents LivingSwap, the first video reference guided face swapping model. Our approach employs keyframes as conditioning signals to inject the target identity, enabling flexible and controllable editing. By combining keyframe conditioning with video reference guidance, the model performs temporal stitching to ensure stable identity preservation and high-fidelity reconstruction across long video sequences. To address the scarcity of data for reference-guided training, we construct a paired face-swapping dataset, Face2Face, and further reverse the data pairs to ensure reliable ground-truth supervision. Extensive experiments demonstrate that our method achieves state-of-the-art results, seamlessly integrating the target identity with the source video's expressions, lighting, and motion, while significantly reducing manual effort in production workflows. Project webpage: https://aim-uofa.github.io/LivingSwap