ChatPaper.aiChatPaper

DreamID-V:拡散Transformerによる高忠実度顔交換のための画像-動画ギャップの架け橋

DreamID-V:Bridging the Image-to-Video Gap for High-Fidelity Face Swapping via Diffusion Transformer

January 4, 2026
著者: Xu Guo, Fulong Ye, Xinghui Li, Pengqi Tu, Pengze Zhang, Qichao Sun, Songtao Zhao, Xiangwang Hou, Qian He
cs.AI

要旨

ビデオ顔交換(VFS)は、ソースアイデンティティをターゲットビデオにシームレスに注入しながら、元のポーズ、表情、照明、背景、動的情報を細心の注意を払って保持することを必要とします。既存の手法では、時間的一貫性を維持しつつ、アイデンティティの類似性と属性の保存を両立させることに苦戦しています。この課題に対処するため、我々は画像顔交換(IFS)の優位性をビデオ領域にシームレスに転送する包括的フレームワークを提案します。まず、Identity-Anchored Video Synthesizerを事前学習し、IFSモデルと組み合わせることで、明示的監督のための双方向ID四つ組を構築する新しいデータパイプラインSyncID-Pipeを導入します。ペアデータに基づいて、コアとなるModality-Aware Conditioningモジュールを採用し、複数モデルの条件を識別的に注入する、初のDiffusion TransformerベースのフレームワークDreamID-Vを提案します。同時に、合成的データから実データへの段階的学習メカニズムと、アイデンティティ一貫性強化学習戦略を提案し、困難なシナリオ下での視覚的真实性とアイデンティティ一貫性を強化します。限られたベンチマークの問題に対処するため、多様なシーンを網羅する包括的ベンチマークIDBench-Vを導入します。大規模な実験により、DreamID-Vが最先端手法を凌駕し、さらに優れた汎用性を示し、様々な交換関連タスクにシームレスに適応できることを実証します。
English
Video Face Swapping (VFS) requires seamlessly injecting a source identity into a target video while meticulously preserving the original pose, expression, lighting, background, and dynamic information. Existing methods struggle to maintain identity similarity and attribute preservation while preserving temporal consistency. To address the challenge, we propose a comprehensive framework to seamlessly transfer the superiority of Image Face Swapping (IFS) to the video domain. We first introduce a novel data pipeline SyncID-Pipe that pre-trains an Identity-Anchored Video Synthesizer and combines it with IFS models to construct bidirectional ID quadruplets for explicit supervision. Building upon paired data, we propose the first Diffusion Transformer-based framework DreamID-V, employing a core Modality-Aware Conditioning module to discriminatively inject multi-model conditions. Meanwhile, we propose a Synthetic-to-Real Curriculum mechanism and an Identity-Coherence Reinforcement Learning strategy to enhance visual realism and identity consistency under challenging scenarios. To address the issue of limited benchmarks, we introduce IDBench-V, a comprehensive benchmark encompassing diverse scenes. Extensive experiments demonstrate DreamID-V outperforms state-of-the-art methods and further exhibits exceptional versatility, which can be seamlessly adapted to various swap-related tasks.
PDF332January 7, 2026