MagicInfinite: Generando Videos Infinitos de Personas Hablando con Tus Palabras y Voz
MagicInfinite: Generating Infinite Talking Videos with Your Words and Voice
March 7, 2025
Autores: Hongwei Yi, Tian Ye, Shitong Shao, Xuancheng Yang, Jiantong Zhao, Hanzhong Guo, Terrance Wang, Qingyu Yin, Zeke Xie, Lei Zhu, Wei Li, Michael Lingelbach, Daquan Zhou
cs.AI
Resumen
Presentamos MagicInfinite, un novedoso marco de Transformer de difusión (DiT) que supera las limitaciones tradicionales de la animación de retratos, ofreciendo resultados de alta fidelidad en diversos tipos de personajes: humanos realistas, figuras de cuerpo completo y personajes de anime estilizados. Soporta diversas poses faciales, incluyendo vistas de espalda, y anima uno o varios personajes con máscaras de entrada para la designación precisa del hablante en escenas con múltiples personajes. Nuestro enfoque aborda desafíos clave con tres innovaciones: (1) mecanismos de atención completa 3D con una estrategia de eliminación de ruido de ventana deslizante, permitiendo la generación infinita de videos con coherencia temporal y calidad visual en diversos estilos de personajes; (2) un esquema de aprendizaje curricular en dos etapas, integrando audio para sincronización labial, texto para dinámicas expresivas e imágenes de referencia para la preservación de la identidad, permitiendo un control multimodal flexible en secuencias largas; y (3) máscaras específicas por región con funciones de pérdida adaptativas para equilibrar el control textual global y la guía de audio local, soportando animaciones específicas por hablante. La eficiencia se mejora mediante nuestras innovadoras técnicas de destilación unificada de pasos y cfg, logrando un aumento de velocidad de inferencia de 20x sobre el modelo base: generando un video de 10 segundos a 540x540p en 10 segundos o 720x720p en 30 segundos en 8 GPUs H100, sin pérdida de calidad. Las evaluaciones en nuestro nuevo benchmark demuestran la superioridad de MagicInfinite en la sincronización audio-labial, la preservación de la identidad y la naturalidad del movimiento en diversos escenarios. Está disponible públicamente en https://www.hedra.com/, con ejemplos en https://magicinfinite.github.io/.
English
We present MagicInfinite, a novel diffusion Transformer (DiT) framework that
overcomes traditional portrait animation limitations, delivering high-fidelity
results across diverse character types-realistic humans, full-body figures, and
stylized anime characters. It supports varied facial poses, including
back-facing views, and animates single or multiple characters with input masks
for precise speaker designation in multi-character scenes. Our approach tackles
key challenges with three innovations: (1) 3D full-attention mechanisms with a
sliding window denoising strategy, enabling infinite video generation with
temporal coherence and visual quality across diverse character styles; (2) a
two-stage curriculum learning scheme, integrating audio for lip sync, text for
expressive dynamics, and reference images for identity preservation, enabling
flexible multi-modal control over long sequences; and (3) region-specific masks
with adaptive loss functions to balance global textual control and local audio
guidance, supporting speaker-specific animations. Efficiency is enhanced via
our innovative unified step and cfg distillation techniques, achieving a 20x
inference speed boost over the basemodel: generating a 10 second 540x540p video
in 10 seconds or 720x720p in 30 seconds on 8 H100 GPUs, without quality loss.
Evaluations on our new benchmark demonstrate MagicInfinite's superiority in
audio-lip synchronization, identity preservation, and motion naturalness across
diverse scenarios. It is publicly available at https://www.hedra.com/, with
examples at https://magicinfinite.github.io/.Summary
AI-Generated Summary