ChatPaper.aiChatPaper

DreamID-V: Het overbruggen van de kloof tussen beeld en video voor hoogwaardige gezichtsverwisseling via Diffusion Transformer

DreamID-V:Bridging the Image-to-Video Gap for High-Fidelity Face Swapping via Diffusion Transformer

January 4, 2026
Auteurs: Xu Guo, Fulong Ye, Xinghui Li, Pengqi Tu, Pengze Zhang, Qichao Sun, Songtao Zhao, Xiangwang Hou, Qian He
cs.AI

Samenvatting

Video Face Swapping (VFS) vereist het naadloos injecteren van een bronidentiteit in een doelvideo, waarbij de oorspronkelijke houding, expressie, belichting, achtergrond en dynamische informatie nauwkeurig behouden blijven. Bestaande methoden hebben moeite om identiteitsgelijkheid en attribuutbehoud te combineren met temporele consistentie. Om deze uitdaging aan te pakken, stellen we een uitgebreid raamwerk voor om de superioriteit van Image Face Swapping (IFS) naadloos over te brengen naar het videodomein. We introduceren eerst een nieuwe datapijplijn, SyncID-Pipe, die een Identity-Anchored Video Synthesizer vooraf traint en deze combineert met IFS-modellen om bidirectionele ID-vierlingen te construeren voor expliciete supervisie. Voortbouwend op gepaarde data stellen we het eerste op Diffusion Transformer gebaseerde raamwerk DreamID-V voor, dat een kern Modality-Aware Conditioning module gebruikt om multi-model condities discriminerend in te spuiten. Tegelijkertijd stellen we een Synthetic-to-Real Curriculum mechanisme en een Identity-Coherence Reinforcement Learning strategie voor om de visuele realiteit en identiteitsconsistentie in uitdagende scenario's te verbeteren. Om het probleem van beperkte benchmarks aan te pakken, introduceren we IDBench-V, een uitgebreide benchmark die diverse scènes omvat. Uitgebreide experimenten tonen aan dat DreamID-V state-of-the-art methoden overtreft en verder uitzonderlijke veelzijdigheid vertoont, waardoor het naadloos kan worden aangepast aan diverse swap-gerelateerde taken.
English
Video Face Swapping (VFS) requires seamlessly injecting a source identity into a target video while meticulously preserving the original pose, expression, lighting, background, and dynamic information. Existing methods struggle to maintain identity similarity and attribute preservation while preserving temporal consistency. To address the challenge, we propose a comprehensive framework to seamlessly transfer the superiority of Image Face Swapping (IFS) to the video domain. We first introduce a novel data pipeline SyncID-Pipe that pre-trains an Identity-Anchored Video Synthesizer and combines it with IFS models to construct bidirectional ID quadruplets for explicit supervision. Building upon paired data, we propose the first Diffusion Transformer-based framework DreamID-V, employing a core Modality-Aware Conditioning module to discriminatively inject multi-model conditions. Meanwhile, we propose a Synthetic-to-Real Curriculum mechanism and an Identity-Coherence Reinforcement Learning strategy to enhance visual realism and identity consistency under challenging scenarios. To address the issue of limited benchmarks, we introduce IDBench-V, a comprehensive benchmark encompassing diverse scenes. Extensive experiments demonstrate DreamID-V outperforms state-of-the-art methods and further exhibits exceptional versatility, which can be seamlessly adapted to various swap-related tasks.
PDF332January 7, 2026