Magische Spiegel: Video Generatie met Behoud van ID in Video Diffusie Transformers
Magic Mirror: ID-Preserved Video Generation in Video Diffusion Transformers
January 7, 2025
Auteurs: Yuechen Zhang, Yaoyang Liu, Bin Xia, Bohao Peng, Zexin Yan, Eric Lo, Jiaya Jia
cs.AI
Samenvatting
Wij presenteren Magic Mirror, een raamwerk voor het genereren van identiteit-geconserveerde video's met een cinematografisch niveau van kwaliteit en dynamische beweging. Hoewel recente ontwikkelingen in video-diffusiemodellen indrukwekkende mogelijkheden hebben laten zien in tekst-naar-video generatie, blijft het uitdagend om consistente identiteit te behouden terwijl natuurlijke beweging wordt geproduceerd. Vorige methoden vereisen ofwel fijne afstemming per persoon of worstelen met het balanceren van identiteitsbehoud met bewegingsdiversiteit. Gebaseerd op Video Diffusion Transformers, introduceert onze methode drie essentiële componenten: (1) een dubbele tak voor het extraheren van gezichtskenmerken die zowel identiteit als structurele kenmerken vastlegt, (2) een lichtgewicht cross-modale adapter met Conditioned Adaptive Normalization voor efficiënte integratie van identiteit, en (3) een tweefasige trainingsstrategie die synthetische identiteitsparen combineert met videogegevens. Uitgebreide experimenten tonen aan dat Magic Mirror effectief identiteitsconsistentie balanceert met natuurlijke beweging, bestaande methoden overtreft op meerdere metingen en minimale toegevoegde parameters vereist. De code en het model zullen openbaar beschikbaar worden gesteld op: https://github.com/dvlab-research/MagicMirror/
English
We present Magic Mirror, a framework for generating identity-preserved videos
with cinematic-level quality and dynamic motion. While recent advances in video
diffusion models have shown impressive capabilities in text-to-video
generation, maintaining consistent identity while producing natural motion
remains challenging. Previous methods either require person-specific
fine-tuning or struggle to balance identity preservation with motion diversity.
Built upon Video Diffusion Transformers, our method introduces three key
components: (1) a dual-branch facial feature extractor that captures both
identity and structural features, (2) a lightweight cross-modal adapter with
Conditioned Adaptive Normalization for efficient identity integration, and (3)
a two-stage training strategy combining synthetic identity pairs with video
data. Extensive experiments demonstrate that Magic Mirror effectively balances
identity consistency with natural motion, outperforming existing methods across
multiple metrics while requiring minimal parameters added. The code and model
will be made publicly available at:
https://github.com/dvlab-research/MagicMirror/Summary
AI-Generated Summary