Preservando o Realismo do Vídeo Original: Substituição Facial de Alta Fidelidade para Qualidade Cinematográfica

Resumo

A substituição facial em vídeo é crucial na produção cinematográfica e de entretenimento, onde alcançar alta fidelidade e consistência temporal em sequências de vídeo longas e complexas permanece um desafio significativo. Inspirados pelos recentes avanços na edição de imagens guiada por referência, investigamos se os ricos atributos visuais de vídeos de origem podem ser similarmente aproveitados para aprimorar tanto a fidelidade quanto a coerência temporal na substituição facial em vídeo. Com base nessa percepção, este trabalho apresenta o LivingSwap, o primeiro modelo de substituição facial guiado por referência em vídeo. Nossa abordagem emprega quadros-chave como sinais de condicionamento para injetar a identidade do alvo, permitindo uma edição flexível e controlável. Ao combinar o condicionamento por quadros-chave com a orientação por referência em vídeo, o modelo realiza uma costura temporal para garantir a preservação estável da identidade e uma reconstrução de alta fidelidade em longas sequências de vídeo. Para lidar com a escassez de dados para treinamento guiado por referência, construímos um conjunto de dados pareados para substituição facial, o Face2Face, e ainda invertemos os pares de dados para garantir uma supervisão de ground-truth confiável. Experimentos extensivos demonstram que nosso método alcança resultados state-of-the-art, integrando perfeitamente a identidade do alvo com as expressões, iluminação e movimento do vídeo de origem, enquanto reduz significativamente o esforço manual nos fluxos de trabalho de produção. Página do projeto: https://aim-uofa.github.io/LivingSwap

English

Video face swapping is crucial in film and entertainment production, where achieving high fidelity and temporal consistency over long and complex video sequences remains a significant challenge. Inspired by recent advances in reference-guided image editing, we explore whether rich visual attributes from source videos can be similarly leveraged to enhance both fidelity and temporal coherence in video face swapping. Building on this insight, this work presents LivingSwap, the first video reference guided face swapping model. Our approach employs keyframes as conditioning signals to inject the target identity, enabling flexible and controllable editing. By combining keyframe conditioning with video reference guidance, the model performs temporal stitching to ensure stable identity preservation and high-fidelity reconstruction across long video sequences. To address the scarcity of data for reference-guided training, we construct a paired face-swapping dataset, Face2Face, and further reverse the data pairs to ensure reliable ground-truth supervision. Extensive experiments demonstrate that our method achieves state-of-the-art results, seamlessly integrating the target identity with the source video's expressions, lighting, and motion, while significantly reducing manual effort in production workflows. Project webpage: https://aim-uofa.github.io/LivingSwap

Preservando o Realismo do Vídeo Original: Substituição Facial de Alta Fidelidade para Qualidade Cinematográfica

Preserving Source Video Realism: High-Fidelity Face Swapping for Cinematic Quality

Resumo

Support