ChatPaper.aiChatPaper

MagicInfinite : Génération de vidéos parlantes infinies avec vos mots et votre voix

MagicInfinite: Generating Infinite Talking Videos with Your Words and Voice

March 7, 2025
Auteurs: Hongwei Yi, Tian Ye, Shitong Shao, Xuancheng Yang, Jiantong Zhao, Hanzhong Guo, Terrance Wang, Qingyu Yin, Zeke Xie, Lei Zhu, Wei Li, Michael Lingelbach, Daquan Zhou
cs.AI

Résumé

Nous présentons MagicInfinite, un nouveau framework de Transformer de diffusion (DiT) qui surmonte les limitations traditionnelles de l'animation de portraits, offrant des résultats haute fidélité pour divers types de personnages - humains réalistes, figures en pied et personnages d'anime stylisés. Il prend en charge diverses poses faciales, y compris les vues de dos, et anime un ou plusieurs personnages avec des masques d'entrée pour une désignation précise du locuteur dans les scènes multi-personnages. Notre approche relève trois défis majeurs grâce à trois innovations : (1) des mécanismes d'attention 3D complets avec une stratégie de débruiteur à fenêtre glissante, permettant une génération vidéo infinie avec une cohérence temporelle et une qualité visuelle pour divers styles de personnages ; (2) un schéma d'apprentissage curriculaire en deux étapes, intégrant l'audio pour la synchronisation labiale, le texte pour les dynamiques expressives et les images de référence pour la préservation de l'identité, permettant un contrôle multi-modal flexible sur de longues séquences ; et (3) des masques spécifiques à la région avec des fonctions de perte adaptatives pour équilibrer le contrôle textuel global et le guidage audio local, soutenant les animations spécifiques au locuteur. L'efficacité est améliorée grâce à nos techniques innovantes de distillation unifiée par étape et cfg, obtenant une accélération de l'inférence de 20x par rapport au modèle de base : génération d'une vidéo de 10 secondes en 540x540p en 10 secondes ou en 720x720p en 30 secondes sur 8 GPU H100, sans perte de qualité. Les évaluations sur notre nouveau benchmark démontrent la supériorité de MagicInfinite en termes de synchronisation audio-labiale, de préservation de l'identité et de naturalité du mouvement dans divers scénarios. Il est disponible publiquement à l'adresse https://www.hedra.com/, avec des exemples sur https://magicinfinite.github.io/.
English
We present MagicInfinite, a novel diffusion Transformer (DiT) framework that overcomes traditional portrait animation limitations, delivering high-fidelity results across diverse character types-realistic humans, full-body figures, and stylized anime characters. It supports varied facial poses, including back-facing views, and animates single or multiple characters with input masks for precise speaker designation in multi-character scenes. Our approach tackles key challenges with three innovations: (1) 3D full-attention mechanisms with a sliding window denoising strategy, enabling infinite video generation with temporal coherence and visual quality across diverse character styles; (2) a two-stage curriculum learning scheme, integrating audio for lip sync, text for expressive dynamics, and reference images for identity preservation, enabling flexible multi-modal control over long sequences; and (3) region-specific masks with adaptive loss functions to balance global textual control and local audio guidance, supporting speaker-specific animations. Efficiency is enhanced via our innovative unified step and cfg distillation techniques, achieving a 20x inference speed boost over the basemodel: generating a 10 second 540x540p video in 10 seconds or 720x720p in 30 seconds on 8 H100 GPUs, without quality loss. Evaluations on our new benchmark demonstrate MagicInfinite's superiority in audio-lip synchronization, identity preservation, and motion naturalness across diverse scenarios. It is publicly available at https://www.hedra.com/, with examples at https://magicinfinite.github.io/.

Summary

AI-Generated Summary

PDF352March 12, 2025