Preservando el Realismo del Video Original: Intercambio Facial de Alta Fidelidad para Calidad Cinematográfica
Preserving Source Video Realism: High-Fidelity Face Swapping for Cinematic Quality
December 8, 2025
Autores: Zekai Luo, Zongze Du, Zhouhang Zhu, Hao Zhong, Muzhi Zhu, Wen Wang, Yuling Xi, Chenchen Jing, Hao Chen, Chunhua Shen
cs.AI
Resumen
El intercambio de caras en vídeo es crucial en la producción cinematográfica y de entretenimiento, donde lograr alta fidelidad y coherencia temporal en secuencias de vídeo largas y complejas sigue siendo un desafío significativo. Inspirados por los recientes avances en la edición de imágenes guiada por referencia, exploramos si los ricos atributos visuales de los vídeos fuente pueden aprovecharse de manera similar para mejorar tanto la fidelidad como la coherencia temporal en el intercambio de caras en vídeo. Basándonos en esta idea, este trabajo presenta LivingSwap, el primer modelo de intercambio de caras guiado por referencia de vídeo. Nuestro enfoque emplea fotogramas clave como señales de condicionamiento para inyectar la identidad objetivo, permitiendo una edición flexible y controlable. Al combinar el condicionamiento por fotogramas clave con la guía de referencia de vídeo, el modelo realiza una costura temporal para garantizar una preservación estable de la identidad y una reconstrucción de alta fidelidad en secuencias de vídeo largas. Para abordar la escasez de datos para el entrenamiento guiado por referencia, construimos un conjunto de datos de intercambio de caras emparejado, Face2Face, y además invertimos los pares de datos para asegurar una supervisión de verdad terreno confiable. Experimentos exhaustivos demuestran que nuestro método logra resultados de vanguardia, integrando perfectamente la identidad objetivo con las expresiones, iluminación y movimiento del vídeo fuente, mientras reduce significativamente el esfuerzo manual en los flujos de trabajo de producción. Página web del proyecto: https://aim-uofa.github.io/LivingSwap
English
Video face swapping is crucial in film and entertainment production, where achieving high fidelity and temporal consistency over long and complex video sequences remains a significant challenge. Inspired by recent advances in reference-guided image editing, we explore whether rich visual attributes from source videos can be similarly leveraged to enhance both fidelity and temporal coherence in video face swapping. Building on this insight, this work presents LivingSwap, the first video reference guided face swapping model. Our approach employs keyframes as conditioning signals to inject the target identity, enabling flexible and controllable editing. By combining keyframe conditioning with video reference guidance, the model performs temporal stitching to ensure stable identity preservation and high-fidelity reconstruction across long video sequences. To address the scarcity of data for reference-guided training, we construct a paired face-swapping dataset, Face2Face, and further reverse the data pairs to ensure reliable ground-truth supervision. Extensive experiments demonstrate that our method achieves state-of-the-art results, seamlessly integrating the target identity with the source video's expressions, lighting, and motion, while significantly reducing manual effort in production workflows. Project webpage: https://aim-uofa.github.io/LivingSwap