ChatPaper.aiChatPaper

Het Bewaren van Realisme in Bronvideo's: Hoogwaardige Gezichtsvervanging voor Cinematografische Kwaliteit

Preserving Source Video Realism: High-Fidelity Face Swapping for Cinematic Quality

December 8, 2025
Auteurs: Zekai Luo, Zongze Du, Zhouhang Zhu, Hao Zhong, Muzhi Zhu, Wen Wang, Yuling Xi, Chenchen Jing, Hao Chen, Chunhua Shen
cs.AI

Samenvatting

Videogezichtswisseling is cruciaal in film- en entertainmentproductie, waarbij het bereiken van hoge kwaliteit en temporele consistentie over lange en complexe videosequenties een aanzienlijke uitdaging blijft. Geïnspireerd door recente vooruitgang in referentiegestuurd beeldbewerking, onderzoeken we of rijke visuele attributen uit bronvideo's op vergelijkbare wijze kunnen worden benut om zowel de kwaliteit als temporele coherentie bij videogezichtswisseling te verbeteren. Voortbouwend op dit inzicht presenteert dit werk LivingSwap, het eerste videoreferentiegestuurde gezichtswisselingsmodel. Onze aanpak gebruikt keyframes als conditioneringssignalen om de doelidentiteit in te brengen, wat flexibele en controleerbare bewerking mogelijk maakt. Door keyframe-conditionering te combineren met videoreferentiesturing, voert het model temporele stitching uit om stabiele identiteitsbehoud en hoogwaardige reconstructie over lange videosequenties te garanderen. Om het gebrek aan data voor referentiegestuurde training aan te pakken, construeren we een gepaarde gezichtswisseldataset, Face2Face, en keren we de dataparen verder om om betrouwbare ground-truth-supervisie te waarborgen. Uitgebreide experimenten tonen aan dat onze methode state-of-the-art resultaten bereikt, waarbij de doelidentiteit naadloos wordt geïntegreerd met de expressies, belichting en beweging van de bronvideo, terwijl de handmatige inspanning in productieworkflows aanzienlijk wordt verminderd. Projectwebpagina: https://aim-uofa.github.io/LivingSwap
English
Video face swapping is crucial in film and entertainment production, where achieving high fidelity and temporal consistency over long and complex video sequences remains a significant challenge. Inspired by recent advances in reference-guided image editing, we explore whether rich visual attributes from source videos can be similarly leveraged to enhance both fidelity and temporal coherence in video face swapping. Building on this insight, this work presents LivingSwap, the first video reference guided face swapping model. Our approach employs keyframes as conditioning signals to inject the target identity, enabling flexible and controllable editing. By combining keyframe conditioning with video reference guidance, the model performs temporal stitching to ensure stable identity preservation and high-fidelity reconstruction across long video sequences. To address the scarcity of data for reference-guided training, we construct a paired face-swapping dataset, Face2Face, and further reverse the data pairs to ensure reliable ground-truth supervision. Extensive experiments demonstrate that our method achieves state-of-the-art results, seamlessly integrating the target identity with the source video's expressions, lighting, and motion, while significantly reducing manual effort in production workflows. Project webpage: https://aim-uofa.github.io/LivingSwap
PDF401December 11, 2025