ChatPaper.aiChatPaper

Preservare il Realismo del Video Originale: Scambio Volto ad Alta Fedeltà per una Qualità Cinematografica

Preserving Source Video Realism: High-Fidelity Face Swapping for Cinematic Quality

December 8, 2025
Autori: Zekai Luo, Zongze Du, Zhouhang Zhu, Hao Zhong, Muzhi Zhu, Wen Wang, Yuling Xi, Chenchen Jing, Hao Chen, Chunhua Shen
cs.AI

Abstract

Lo scambio di volti video è cruciale nella produzione cinematografica e dell'intrattenimento, dove ottenere un'alta fedeltà e una consistenza temporale in sequenze video lunghe e complesse rimane una sfida significativa. Ispirati dai recenti progressi nell'editing di immagini guidato da riferimenti, esploriamo se gli attributi visivi ricchi dei video sorgente possano essere similmente sfruttati per migliorare sia la fedeltà che la coerenza temporale nello scambio di volti video. Basandoci su questa intuizione, questo lavoro presenta LivingSwap, il primo modello di scambio volti video guidato da riferimento. Il nostro approccio utilizza fotogrammi chiave come segnali di condizionamento per iniettare l'identità target, consentendo un editing flessibile e controllabile. Combinando il condizionamento dei fotogrammi chiave con la guida del riferimento video, il modello esegue una cucitura temporale per garantire una conservazione stabile dell'identità e una ricostruzione ad alta fedeltà attraverso lunghe sequenze video. Per affrontare la carenza di dati per l'addestramento guidato da riferimento, costruiamo un dataset accoppiato per lo scambio di volti, Face2Face, e invertiamo ulteriormente le coppie di dati per garantire una supervisione ground-truth affidabile. Esperimenti estensivi dimostrano che il nostro metodo raggiunge risultati all'avanguardia, integrando perfettamente l'identità target con le espressioni, l'illuminazione e il movimento del video sorgente, riducendo significativamente lo sforzo manuale nei flussi di lavoro di produzione. Pagina del progetto: https://aim-uofa.github.io/LivingSwap
English
Video face swapping is crucial in film and entertainment production, where achieving high fidelity and temporal consistency over long and complex video sequences remains a significant challenge. Inspired by recent advances in reference-guided image editing, we explore whether rich visual attributes from source videos can be similarly leveraged to enhance both fidelity and temporal coherence in video face swapping. Building on this insight, this work presents LivingSwap, the first video reference guided face swapping model. Our approach employs keyframes as conditioning signals to inject the target identity, enabling flexible and controllable editing. By combining keyframe conditioning with video reference guidance, the model performs temporal stitching to ensure stable identity preservation and high-fidelity reconstruction across long video sequences. To address the scarcity of data for reference-guided training, we construct a paired face-swapping dataset, Face2Face, and further reverse the data pairs to ensure reliable ground-truth supervision. Extensive experiments demonstrate that our method achieves state-of-the-art results, seamlessly integrating the target identity with the source video's expressions, lighting, and motion, while significantly reducing manual effort in production workflows. Project webpage: https://aim-uofa.github.io/LivingSwap
PDF401December 11, 2025