ChatPaper.aiChatPaper

DreamID-V : Combler l'écart image-vidéo pour un échange de visages haute fidélité via un transformateur de diffusion

DreamID-V:Bridging the Image-to-Video Gap for High-Fidelity Face Swapping via Diffusion Transformer

January 4, 2026
papers.authors: Xu Guo, Fulong Ye, Xinghui Li, Pengqi Tu, Pengze Zhang, Qichao Sun, Songtao Zhao, Xiangwang Hou, Qian He
cs.AI

papers.abstract

Le remplacement de visage vidéo (VFS) nécessite l'injection transparente d'une identité source dans une vidéo cible tout en préservant méticuleusement la pose, l'expression, l'éclairage, l'arrière-plan et les informations dynamiques originaux. Les méthodes existantes peinent à maintenir la similarité d'identité et la préservation des attributs tout en conservant la cohérence temporelle. Pour relever ce défi, nous proposons un cadre complet permettant de transférer de manière transparente la supériorité du remplacement de visage sur image (IFS) au domaine vidéo. Nous introduisons d'abord une nouvelle pipeline de données SyncID-Pipe qui pré-entraîne un synthétiseur vidéo ancré sur l'identité et le combine avec des modèles IFS pour construire des quadruplets d'ID bidirectionnels permettant une supervision explicite. Sur la base de données appariées, nous proposons le premier cadre DreamID-V basé sur un Transformer à Diffusion, employant un module central de Conditionnement Sensible aux Modalités pour injecter de manière discriminante des conditions multi-modèles. Parallèlement, nous proposons un mécanisme de Curriculum Synthétique-vers-Réel et une stratégie d'Apprentissage par Renforcement de la Cohérence d'Identité pour améliorer le réalisme visuel et la cohérence identitaire dans des scénarios difficiles. Pour remédier au problème des benchmarks limités, nous introduisons IDBench-V, un benchmark complet couvrant des scènes diverses. Des expériences approfondies démontrent que DreamID-V surpasse les méthodes state-of-the-art et présente en outre une polyvalence exceptionnelle, pouvant être adapté de manière transparente à diverses tâches liées au remplacement.
English
Video Face Swapping (VFS) requires seamlessly injecting a source identity into a target video while meticulously preserving the original pose, expression, lighting, background, and dynamic information. Existing methods struggle to maintain identity similarity and attribute preservation while preserving temporal consistency. To address the challenge, we propose a comprehensive framework to seamlessly transfer the superiority of Image Face Swapping (IFS) to the video domain. We first introduce a novel data pipeline SyncID-Pipe that pre-trains an Identity-Anchored Video Synthesizer and combines it with IFS models to construct bidirectional ID quadruplets for explicit supervision. Building upon paired data, we propose the first Diffusion Transformer-based framework DreamID-V, employing a core Modality-Aware Conditioning module to discriminatively inject multi-model conditions. Meanwhile, we propose a Synthetic-to-Real Curriculum mechanism and an Identity-Coherence Reinforcement Learning strategy to enhance visual realism and identity consistency under challenging scenarios. To address the issue of limited benchmarks, we introduce IDBench-V, a comprehensive benchmark encompassing diverse scenes. Extensive experiments demonstrate DreamID-V outperforms state-of-the-art methods and further exhibits exceptional versatility, which can be seamlessly adapted to various swap-related tasks.
PDF332January 7, 2026