MagicInfinite: Generazione di Video Parlanti Infiniti con le Tue Parole e la Tua Voce
MagicInfinite: Generating Infinite Talking Videos with Your Words and Voice
March 7, 2025
Autori: Hongwei Yi, Tian Ye, Shitong Shao, Xuancheng Yang, Jiantong Zhao, Hanzhong Guo, Terrance Wang, Qingyu Yin, Zeke Xie, Lei Zhu, Wei Li, Michael Lingelbach, Daquan Zhou
cs.AI
Abstract
Presentiamo MagicInfinite, un innovativo framework basato su Transformer di diffusione (DiT) che supera le limitazioni tradizionali dell'animazione ritrattistica, offrendo risultati ad alta fedeltà per diversi tipi di personaggi: esseri umani realistici, figure a corpo intero e personaggi anime stilizzati. Supporta varie pose facciali, incluse viste posteriori, e anima uno o più personaggi con maschere di input per la designazione precisa del parlante in scene con più personaggi. Il nostro approccio affronta le principali sfide con tre innovazioni: (1) meccanismi di attenzione completa 3D con una strategia di denoising a finestra scorrevole, che consentono la generazione infinita di video con coerenza temporale e qualità visiva per diversi stili di personaggi; (2) uno schema di apprendimento curriculare in due fasi, che integra l'audio per la sincronizzazione labiale, il testo per dinamiche espressive e immagini di riferimento per la preservazione dell'identità, permettendo un controllo multimodale flessibile su sequenze lunghe; e (3) maschere specifiche per regione con funzioni di perdita adattive per bilanciare il controllo testuale globale e la guida audio locale, supportando animazioni specifiche per il parlante. L'efficienza è migliorata grazie alle nostre innovative tecniche di distillazione unificata di step e cfg, ottenendo un aumento di 20x nella velocità di inferenza rispetto al modello base: generando un video di 10 secondi a 540x540p in 10 secondi o 720x720p in 30 secondi su 8 GPU H100, senza perdita di qualità. Le valutazioni sul nostro nuovo benchmark dimostrano la superiorità di MagicInfinite nella sincronizzazione audio-labiale, nella preservazione dell'identità e nella naturalezza del movimento in diversi scenari. È disponibile pubblicamente all'indirizzo https://www.hedra.com/, con esempi su https://magicinfinite.github.io/.
English
We present MagicInfinite, a novel diffusion Transformer (DiT) framework that
overcomes traditional portrait animation limitations, delivering high-fidelity
results across diverse character types-realistic humans, full-body figures, and
stylized anime characters. It supports varied facial poses, including
back-facing views, and animates single or multiple characters with input masks
for precise speaker designation in multi-character scenes. Our approach tackles
key challenges with three innovations: (1) 3D full-attention mechanisms with a
sliding window denoising strategy, enabling infinite video generation with
temporal coherence and visual quality across diverse character styles; (2) a
two-stage curriculum learning scheme, integrating audio for lip sync, text for
expressive dynamics, and reference images for identity preservation, enabling
flexible multi-modal control over long sequences; and (3) region-specific masks
with adaptive loss functions to balance global textual control and local audio
guidance, supporting speaker-specific animations. Efficiency is enhanced via
our innovative unified step and cfg distillation techniques, achieving a 20x
inference speed boost over the basemodel: generating a 10 second 540x540p video
in 10 seconds or 720x720p in 30 seconds on 8 H100 GPUs, without quality loss.
Evaluations on our new benchmark demonstrate MagicInfinite's superiority in
audio-lip synchronization, identity preservation, and motion naturalness across
diverse scenarios. It is publicly available at https://www.hedra.com/, with
examples at https://magicinfinite.github.io/.