Espejo Mágico: Generación de Video con Preservación de ID en Difusión de Video Transformers
Magic Mirror: ID-Preserved Video Generation in Video Diffusion Transformers
January 7, 2025
Autores: Yuechen Zhang, Yaoyang Liu, Bin Xia, Bohao Peng, Zexin Yan, Eric Lo, Jiaya Jia
cs.AI
Resumen
Presentamos Magic Mirror, un marco para generar videos preservando la identidad con calidad a nivel cinematográfico y movimiento dinámico. Si bien los avances recientes en modelos de difusión de video han demostrado capacidades impresionantes en la generación de texto a video, mantener una identidad consistente al producir un movimiento natural sigue siendo un desafío. Los métodos anteriores requieren ajustes específicos de la persona o luchan por equilibrar la preservación de la identidad con la diversidad de movimiento. Basado en los Transformadores de Difusión de Video, nuestro método introduce tres componentes clave: (1) un extractor de rasgos faciales de doble rama que captura tanto la identidad como los rasgos estructurales, (2) un adaptador cruzado ligero con Normalización Adaptativa Condicionada para una integración eficiente de la identidad, y (3) una estrategia de entrenamiento en dos etapas que combina pares de identidades sintéticas con datos de video. Experimentos extensos demuestran que Magic Mirror equilibra efectivamente la consistencia de la identidad con el movimiento natural, superando a los métodos existentes en múltiples métricas y requiriendo un mínimo de parámetros adicionales. El código y el modelo estarán disponibles públicamente en: https://github.com/dvlab-research/MagicMirror/
English
We present Magic Mirror, a framework for generating identity-preserved videos
with cinematic-level quality and dynamic motion. While recent advances in video
diffusion models have shown impressive capabilities in text-to-video
generation, maintaining consistent identity while producing natural motion
remains challenging. Previous methods either require person-specific
fine-tuning or struggle to balance identity preservation with motion diversity.
Built upon Video Diffusion Transformers, our method introduces three key
components: (1) a dual-branch facial feature extractor that captures both
identity and structural features, (2) a lightweight cross-modal adapter with
Conditioned Adaptive Normalization for efficient identity integration, and (3)
a two-stage training strategy combining synthetic identity pairs with video
data. Extensive experiments demonstrate that Magic Mirror effectively balances
identity consistency with natural motion, outperforming existing methods across
multiple metrics while requiring minimal parameters added. The code and model
will be made publicly available at:
https://github.com/dvlab-research/MagicMirror/Summary
AI-Generated Summary