ChatPaper.aiChatPaper

Miroir Magique : Génération Vidéo à Identifiant Préservé dans les Transformateurs de Diffusion Vidéo

Magic Mirror: ID-Preserved Video Generation in Video Diffusion Transformers

January 7, 2025
Auteurs: Yuechen Zhang, Yaoyang Liu, Bin Xia, Bohao Peng, Zexin Yan, Eric Lo, Jiaya Jia
cs.AI

Résumé

Nous présentons Magic Mirror, un cadre pour générer des vidéos préservant l'identité avec une qualité de niveau cinématographique et un mouvement dynamique. Alors que les récents progrès dans les modèles de diffusion vidéo ont montré des capacités impressionnantes dans la génération de texte en vidéo, maintenir une identité cohérente tout en produisant un mouvement naturel reste un défi. Les méthodes précédentes nécessitent soit un ajustement fin spécifique à la personne, soit peinent à équilibrer la préservation de l'identité avec la diversité du mouvement. Basée sur les Transformateurs de Diffusion Vidéo, notre méthode introduit trois composants clés : (1) un extracteur de caractéristiques faciales à double branche qui capture à la fois l'identité et les caractéristiques structurelles, (2) un adaptateur croisé léger avec Normalisation Adaptative Conditionnée pour une intégration efficace de l'identité, et (3) une stratégie d'entraînement en deux étapes combinant des paires d'identités synthétiques avec des données vidéo. Des expériences approfondies démontrent que Magic Mirror équilibre efficacement la cohérence de l'identité avec un mouvement naturel, surpassant les méthodes existantes sur plusieurs métriques tout en nécessitant un ajout minimal de paramètres. Le code et le modèle seront rendus publiquement disponibles sur : https://github.com/dvlab-research/MagicMirror/
English
We present Magic Mirror, a framework for generating identity-preserved videos with cinematic-level quality and dynamic motion. While recent advances in video diffusion models have shown impressive capabilities in text-to-video generation, maintaining consistent identity while producing natural motion remains challenging. Previous methods either require person-specific fine-tuning or struggle to balance identity preservation with motion diversity. Built upon Video Diffusion Transformers, our method introduces three key components: (1) a dual-branch facial feature extractor that captures both identity and structural features, (2) a lightweight cross-modal adapter with Conditioned Adaptive Normalization for efficient identity integration, and (3) a two-stage training strategy combining synthetic identity pairs with video data. Extensive experiments demonstrate that Magic Mirror effectively balances identity consistency with natural motion, outperforming existing methods across multiple metrics while requiring minimal parameters added. The code and model will be made publicly available at: https://github.com/dvlab-research/MagicMirror/

Summary

AI-Generated Summary

PDF152January 8, 2025