ChatPaper.aiChatPaper

Magischer Spiegel: ID-erhaltende Videogenerierung in Video-Diffusionstransformatoren

Magic Mirror: ID-Preserved Video Generation in Video Diffusion Transformers

January 7, 2025
Autoren: Yuechen Zhang, Yaoyang Liu, Bin Xia, Bohao Peng, Zexin Yan, Eric Lo, Jiaya Jia
cs.AI

Zusammenfassung

Wir präsentieren Magic Mirror, ein Framework zur Erzeugung von identitätserhaltenden Videos mit kinoreifer Qualität und dynamischer Bewegung. Während jüngste Fortschritte in Video-Diffusionsmodellen beeindruckende Fähigkeiten in der Text-zu-Video-Generierung gezeigt haben, bleibt die Aufrechterhaltung einer konsistenten Identität bei der Erzeugung natürlicher Bewegungen eine Herausforderung. Frühere Methoden erfordern entweder eine feinabgestimmte Personenspezifität oder haben Schwierigkeiten, Identitätserhaltung und Bewegungsvielfalt auszubalancieren. Aufbauend auf Video Diffusion Transformers führt unsere Methode drei Schlüsselkomponenten ein: (1) einen dualen Gesichtsmerkmalsextraktor, der sowohl Identität als auch strukturelle Merkmale erfasst, (2) einen leichten Cross-Modal Adapter mit bedingter adaptiver Normalisierung für eine effiziente Identitätsintegration und (3) eine Zwei-Stufen-Trainingsstrategie, die synthetische Identitätspaare mit Videodaten kombiniert. Umfangreiche Experimente zeigen, dass Magic Mirror Identitätskonsistenz effektiv mit natürlicher Bewegung ausbalanciert, bestehende Methoden in mehreren Metriken übertrifft und dabei minimale zusätzliche Parameter erfordert. Der Code und das Modell werden öffentlich zugänglich gemacht unter: https://github.com/dvlab-research/MagicMirror/
English
We present Magic Mirror, a framework for generating identity-preserved videos with cinematic-level quality and dynamic motion. While recent advances in video diffusion models have shown impressive capabilities in text-to-video generation, maintaining consistent identity while producing natural motion remains challenging. Previous methods either require person-specific fine-tuning or struggle to balance identity preservation with motion diversity. Built upon Video Diffusion Transformers, our method introduces three key components: (1) a dual-branch facial feature extractor that captures both identity and structural features, (2) a lightweight cross-modal adapter with Conditioned Adaptive Normalization for efficient identity integration, and (3) a two-stage training strategy combining synthetic identity pairs with video data. Extensive experiments demonstrate that Magic Mirror effectively balances identity consistency with natural motion, outperforming existing methods across multiple metrics while requiring minimal parameters added. The code and model will be made publicly available at: https://github.com/dvlab-research/MagicMirror/

Summary

AI-Generated Summary

PDF152January 8, 2025