MagicInfinite: Gerando Vídeos Infinitos de Pessoas Falando com Suas Palavras e Voz
MagicInfinite: Generating Infinite Talking Videos with Your Words and Voice
March 7, 2025
Autores: Hongwei Yi, Tian Ye, Shitong Shao, Xuancheng Yang, Jiantong Zhao, Hanzhong Guo, Terrance Wang, Qingyu Yin, Zeke Xie, Lei Zhu, Wei Li, Michael Lingelbach, Daquan Zhou
cs.AI
Resumo
Apresentamos o MagicInfinite, uma nova estrutura de Transformador de Difusão (DiT) que supera as limitações tradicionais da animação de retratos, entregando resultados de alta fidelidade em diversos tipos de personagens - humanos realistas, figuras de corpo inteiro e personagens de anime estilizados. Ele suporta diversas poses faciais, incluindo visões de costas, e anima um ou vários personagens com máscaras de entrada para designação precisa do falante em cenas com múltiplos personagens. Nossa abordagem aborda desafios-chave com três inovações: (1) mecanismos de atenção completa 3D com uma estratégia de redução de ruído de janela deslizante, permitindo a geração infinita de vídeos com coerência temporal e qualidade visual em diversos estilos de personagens; (2) um esquema de aprendizado curricular em duas etapas, integrando áudio para sincronização labial, texto para dinâmicas expressivas e imagens de referência para preservação de identidade, permitindo controle multimodal flexível em sequências longas; e (3) máscaras específicas por região com funções de perda adaptativas para equilibrar o controle textual global e a orientação de áudio local, suportando animações específicas por falante. A eficiência é aprimorada por meio de nossas técnicas inovadoras de destilação unificada de passos e cfg, alcançando um aumento de 20x na velocidade de inferência em relação ao modelo base: gerando um vídeo de 10 segundos em 540x540p em 10 segundos ou 720x720p em 30 segundos em 8 GPUs H100, sem perda de qualidade. As avaliações em nosso novo benchmark demonstram a superioridade do MagicInfinite na sincronização áudio-labial, preservação de identidade e naturalidade do movimento em diversos cenários. Ele está disponível publicamente em https://www.hedra.com/, com exemplos em https://magicinfinite.github.io/.
English
We present MagicInfinite, a novel diffusion Transformer (DiT) framework that
overcomes traditional portrait animation limitations, delivering high-fidelity
results across diverse character types-realistic humans, full-body figures, and
stylized anime characters. It supports varied facial poses, including
back-facing views, and animates single or multiple characters with input masks
for precise speaker designation in multi-character scenes. Our approach tackles
key challenges with three innovations: (1) 3D full-attention mechanisms with a
sliding window denoising strategy, enabling infinite video generation with
temporal coherence and visual quality across diverse character styles; (2) a
two-stage curriculum learning scheme, integrating audio for lip sync, text for
expressive dynamics, and reference images for identity preservation, enabling
flexible multi-modal control over long sequences; and (3) region-specific masks
with adaptive loss functions to balance global textual control and local audio
guidance, supporting speaker-specific animations. Efficiency is enhanced via
our innovative unified step and cfg distillation techniques, achieving a 20x
inference speed boost over the basemodel: generating a 10 second 540x540p video
in 10 seconds or 720x720p in 30 seconds on 8 H100 GPUs, without quality loss.
Evaluations on our new benchmark demonstrate MagicInfinite's superiority in
audio-lip synchronization, identity preservation, and motion naturalness across
diverse scenarios. It is publicly available at https://www.hedra.com/, with
examples at https://magicinfinite.github.io/.Summary
AI-Generated Summary