DreamID-V: 확산 트랜스포머를 통한 고품질 얼굴 교체를 위한 이미지-비디오 간극 해소
DreamID-V:Bridging the Image-to-Video Gap for High-Fidelity Face Swapping via Diffusion Transformer
January 4, 2026
저자: Xu Guo, Fulong Ye, Xinghui Li, Pengqi Tu, Pengze Zhang, Qichao Sun, Songtao Zhao, Xiangwang Hou, Qian He
cs.AI
초록
비디오 얼굴 교체(VFS)는 원본의 포즈, 표정, 조명, 배경 및 동적 정보를 세심하게 보존하면서 소스 신원을 대상 비디오에 자연스럽게 주입하는 것을 요구합니다. 기존 방법들은 시간적 일관성을 유지하면서도 신원 유사성과 속성 보존을 동시에 달성하는 데 어려움을 겪습니다. 이러한 문제를 해결하기 위해, 우리는 이미지 얼굴 교체(IFS)의 우수성을 비디오 영역으로 원활하게 전이하는 포괄적인 프레임워크를 제안합니다. 먼저, Identity-Anchored Video Synthesizer를 사전 학습하고 IFS 모델과 결합하여 명시적 supervision을 위한 양방향 ID 쿼드러플릿을 구성하는 새로운 데이터 파이프라인 SyncID-Pipe를 소개합니다. 이렇게 쌍을 이룬 데이터를 기반으로, 우리는 핵심 Modality-Aware Conditioning 모듈을 사용하여 다중 모델 조건을 구별적으로 주입하는 최초의 Diffusion Transformer 기반 프레임워크인 DreamID-V를 제안합니다. 동시에, 까다로운 시나리오에서 시각적 현실감과 신원 일관성을 향상시키기 위해 Synthetic-to-Real Curriculum 메커니즘과 Identity-Coherence Reinforcement Learning 전략을 제안합니다. 제한된 벤치마크 문제를 해결하기 위해, 다양한 장면을 포괄하는 종합 벤치마크인 IDBench-V를 도입합니다. 광범위한 실험을 통해 DreamID-V가 최첨단 방법들을 능가하며, 더 나아가 다양한 교체 관련 작업에 원활하게 적용될 수 있는 탁월한 다용성을 보여줍니다.
English
Video Face Swapping (VFS) requires seamlessly injecting a source identity into a target video while meticulously preserving the original pose, expression, lighting, background, and dynamic information. Existing methods struggle to maintain identity similarity and attribute preservation while preserving temporal consistency. To address the challenge, we propose a comprehensive framework to seamlessly transfer the superiority of Image Face Swapping (IFS) to the video domain. We first introduce a novel data pipeline SyncID-Pipe that pre-trains an Identity-Anchored Video Synthesizer and combines it with IFS models to construct bidirectional ID quadruplets for explicit supervision. Building upon paired data, we propose the first Diffusion Transformer-based framework DreamID-V, employing a core Modality-Aware Conditioning module to discriminatively inject multi-model conditions. Meanwhile, we propose a Synthetic-to-Real Curriculum mechanism and an Identity-Coherence Reinforcement Learning strategy to enhance visual realism and identity consistency under challenging scenarios. To address the issue of limited benchmarks, we introduce IDBench-V, a comprehensive benchmark encompassing diverse scenes. Extensive experiments demonstrate DreamID-V outperforms state-of-the-art methods and further exhibits exceptional versatility, which can be seamlessly adapted to various swap-related tasks.