ChatPaper.aiChatPaper

DreamID-V: Überbrückung der Bild-zu-Video-Lücke für hochwertiges Gesichtstauschen mittels Diffusion Transformer

DreamID-V:Bridging the Image-to-Video Gap for High-Fidelity Face Swapping via Diffusion Transformer

January 4, 2026
papers.authors: Xu Guo, Fulong Ye, Xinghui Li, Pengqi Tu, Pengze Zhang, Qichao Sun, Songtao Zhao, Xiangwang Hou, Qian He
cs.AI

papers.abstract

Video Face Swapping (VFS) erfordert die nahtlose Übertragung einer Quellidentität in ein Zielvideo unter sorgfältiger Bewahrung der ursprünglichen Pose, des Ausdrucks, der Beleuchtung, des Hintergrunds und der dynamischen Informationen. Bestehende Methoden haben Schwierigkeiten, Identitätsähnlichkeit und Attributerhaltung bei gleichzeitiger Wahrung der zeitlichen Konsistenz aufrechtzuerhalten. Um diese Herausforderung zu bewältigen, schlagen wir einen umfassenden Rahmen vor, um die Überlegenheit von Image Face Swapping (IFS) nahtlos in den Videobereich zu übertragen. Wir führen zunächst eine neuartige Datenpipeline SyncID-Pipe ein, die einen identitätsverankerten Video-Synthesizer vortrainiert und mit IFS-Modellen kombiniert, um bidirektionale ID-Vierlinge für explizite Überwachung zu konstruieren. Aufbauend auf gepaarten Daten schlagen wir das erste auf Diffusion Transformer basierende Framework DreamID-V vor, das ein zentrales Modality-Aware Conditioning-Modul einsetzt, um multimodale Bedingungen diskriminierend einzuspielen. Gleichzeitig schlagen wir einen Synthetic-to-Real Curriculum-Mechanismus und eine Identity-Coherence Reinforcement Learning-Strategie vor, um den visuellen Realismus und die Identitätskonsistenz in anspruchsvollen Szenarien zu verbessern. Um das Problem begrenzter Benchmarks anzugehen, führen wir IDBench-V ein, einen umfassenden Benchmark, der verschiedene Szenen abdeckt. Umfangreiche Experimente zeigen, dass DreamID-V state-of-the-art-Methoden übertrifft und weiterhin außergewöhnliche Vielseitigkeit aufweist, die nahtlos an verschiedene austauschbezogene Aufgaben angepasst werden kann.
English
Video Face Swapping (VFS) requires seamlessly injecting a source identity into a target video while meticulously preserving the original pose, expression, lighting, background, and dynamic information. Existing methods struggle to maintain identity similarity and attribute preservation while preserving temporal consistency. To address the challenge, we propose a comprehensive framework to seamlessly transfer the superiority of Image Face Swapping (IFS) to the video domain. We first introduce a novel data pipeline SyncID-Pipe that pre-trains an Identity-Anchored Video Synthesizer and combines it with IFS models to construct bidirectional ID quadruplets for explicit supervision. Building upon paired data, we propose the first Diffusion Transformer-based framework DreamID-V, employing a core Modality-Aware Conditioning module to discriminatively inject multi-model conditions. Meanwhile, we propose a Synthetic-to-Real Curriculum mechanism and an Identity-Coherence Reinforcement Learning strategy to enhance visual realism and identity consistency under challenging scenarios. To address the issue of limited benchmarks, we introduce IDBench-V, a comprehensive benchmark encompassing diverse scenes. Extensive experiments demonstrate DreamID-V outperforms state-of-the-art methods and further exhibits exceptional versatility, which can be seamlessly adapted to various swap-related tasks.
PDF332January 7, 2026