**DreamID-V: Preenchendo a Lacuna entre Imagem e Vídeo para Troca de Rosto de Alta Fidelidade via Transformador de Difusão** **(Nota: A tradução do título técnico "Diffusion Transformer" pode variar. Alternativas comuns na literatura em português incluem "Transformador de Difusão" (mais literal) ou a manutenção do termo em inglês "Diffusion Transformer (DiT)" se for um nome de modelo estabelecido. A escolha acima usa a forma traduzida.)**
DreamID-V:Bridging the Image-to-Video Gap for High-Fidelity Face Swapping via Diffusion Transformer
January 4, 2026
Autores: Xu Guo, Fulong Ye, Xinghui Li, Pengqi Tu, Pengze Zhang, Qichao Sun, Songtao Zhao, Xiangwang Hou, Qian He
cs.AI
Resumo
A Troca de Rostos em Vídeo (VFS) exige a injeção perfeita de uma identidade de origem num vídeo-alvo, preservando meticulosamente a pose, expressão, iluminação, fundo e informações dinâmicas originais. Os métodos existentes lutam para manter a similaridade de identidade e a preservação de atributos, garantindo ao mesmo tempo a consistência temporal. Para enfrentar este desafio, propomos um quadro abrangente para transferir perfeitamente a superioridade da Troca de Rostos em Imagem (IFS) para o domínio do vídeo. Primeiro, introduzimos um novo *pipeline* de dados, o SyncID-Pipe, que pré-treina um Sintetizador de Vídeo com Âncora de Identidade e o combina com modelos IFS para construir quadrupletos de ID bidirecionais para supervisão explícita. Com base em dados emparelhados, propomos a primeira arquitetura baseada em *Diffusion Transformer*, a DreamID-V, empregando um módulo central de Condicionamento Consciente da Modalidade para injetar discriminativamente condições de multi-modelo. Entretanto, propomos um mecanismo de Currículo Sintético-para-Real e uma estratégia de Aprendizagem por Reforço de Coerência de Identidade para melhorar o realismo visual e a consistência da identidade em cenários desafiadores. Para resolver a questão da limitação de *benchmarks*, introduzimos o IDBench-V, um *benchmark* abrangente que abarca diversas cenas. Extensivos experimentos demonstram que a DreamID-V supera os métodos state-of-the-art e exibe ainda uma versatilidade excecional, podendo ser adaptada perfeitamente a várias tarefas relacionadas com troca.
English
Video Face Swapping (VFS) requires seamlessly injecting a source identity into a target video while meticulously preserving the original pose, expression, lighting, background, and dynamic information. Existing methods struggle to maintain identity similarity and attribute preservation while preserving temporal consistency. To address the challenge, we propose a comprehensive framework to seamlessly transfer the superiority of Image Face Swapping (IFS) to the video domain. We first introduce a novel data pipeline SyncID-Pipe that pre-trains an Identity-Anchored Video Synthesizer and combines it with IFS models to construct bidirectional ID quadruplets for explicit supervision. Building upon paired data, we propose the first Diffusion Transformer-based framework DreamID-V, employing a core Modality-Aware Conditioning module to discriminatively inject multi-model conditions. Meanwhile, we propose a Synthetic-to-Real Curriculum mechanism and an Identity-Coherence Reinforcement Learning strategy to enhance visual realism and identity consistency under challenging scenarios. To address the issue of limited benchmarks, we introduce IDBench-V, a comprehensive benchmark encompassing diverse scenes. Extensive experiments demonstrate DreamID-V outperforms state-of-the-art methods and further exhibits exceptional versatility, which can be seamlessly adapted to various swap-related tasks.