Волшебное зеркало: Генерация видео с сохранением идентификатора в трансформерах видео-диффузии
Magic Mirror: ID-Preserved Video Generation in Video Diffusion Transformers
January 7, 2025
Авторы: Yuechen Zhang, Yaoyang Liu, Bin Xia, Bohao Peng, Zexin Yan, Eric Lo, Jiaya Jia
cs.AI
Аннотация
Мы представляем Magic Mirror, фреймворк для создания видео с сохранением личности на уровне кинематографического качества и динамичного движения. В то время как недавние достижения в моделях диффузии видео показали впечатляющие возможности в генерации видео из текста, сохранение последовательной личности при производстве естественного движения остается сложной задачей. Предыдущие методы либо требуют тонкой настройки под конкретного человека, либо борются с балансировкой сохранения личности и разнообразия движения. Основываясь на Video Diffusion Transformers, наш метод вводит три ключевых компонента: (1) двухветвевой извлекатель лицевых признаков, который захватывает как личностные, так и структурные особенности, (2) легкий кросс-модальный адаптер с Условной Адаптивной Нормализацией для эффективной интеграции личности, и (3) двухэтапную стратегию обучения, объединяющую синтетические пары личностей с видеоданными. Обширные эксперименты показывают, что Magic Mirror эффективно балансирует согласованность личности с естественным движением, превосходя существующие методы по нескольким метрикам, требуя минимального добавления параметров. Код и модель будут общедоступны по ссылке: https://github.com/dvlab-research/MagicMirror/
English
We present Magic Mirror, a framework for generating identity-preserved videos
with cinematic-level quality and dynamic motion. While recent advances in video
diffusion models have shown impressive capabilities in text-to-video
generation, maintaining consistent identity while producing natural motion
remains challenging. Previous methods either require person-specific
fine-tuning or struggle to balance identity preservation with motion diversity.
Built upon Video Diffusion Transformers, our method introduces three key
components: (1) a dual-branch facial feature extractor that captures both
identity and structural features, (2) a lightweight cross-modal adapter with
Conditioned Adaptive Normalization for efficient identity integration, and (3)
a two-stage training strategy combining synthetic identity pairs with video
data. Extensive experiments demonstrate that Magic Mirror effectively balances
identity consistency with natural motion, outperforming existing methods across
multiple metrics while requiring minimal parameters added. The code and model
will be made publicly available at:
https://github.com/dvlab-research/MagicMirror/