MagicInfinite: Oneindige Sprekende Video's Genereren met Jouw Woorden en Stem
MagicInfinite: Generating Infinite Talking Videos with Your Words and Voice
March 7, 2025
Auteurs: Hongwei Yi, Tian Ye, Shitong Shao, Xuancheng Yang, Jiantong Zhao, Hanzhong Guo, Terrance Wang, Qingyu Yin, Zeke Xie, Lei Zhu, Wei Li, Michael Lingelbach, Daquan Zhou
cs.AI
Samenvatting
We presenteren MagicInfinite, een nieuw diffusion Transformer (DiT) framework dat traditionele beperkingen van portretanimatie overwint en hoogwaardige resultaten levert voor diverse karaktersoorten - realistische mensen, volledige lichaamsfiguren en gestileerde anime-personages. Het ondersteunt verschillende gezichtshoudingen, inclusief achterwaartse aanzichten, en animeert één of meerdere karakters met invoermaskers voor precieze sprekeraanwijzing in scènes met meerdere personages. Onze aanpak adresseert belangrijke uitdagingen met drie innovaties: (1) 3D volledige-attentiemechanismen met een sliding window denoising-strategie, waardoor oneindige videogeneratie mogelijk wordt met temporele coherentie en visuele kwaliteit voor diverse karakterstijlen; (2) een tweefasen curriculumleerschema, dat audio integreert voor lipsynchronisatie, tekst voor expressieve dynamiek en referentiebeelden voor identiteitsbehoud, waardoor flexibele multimodale controle over lange sequenties mogelijk wordt; en (3) regiospecifieke maskers met adaptieve verliesfuncties om globale tekstuele controle en lokale audiogestuurde begeleiding in balans te brengen, wat sprekerspecifieke animaties ondersteunt. De efficiëntie wordt verbeterd via onze innovatieve unified step en cfg-distillatietechnieken, wat een 20x versnelling van de inferentiesnelheid oplevert ten opzichte van het basismodel: het genereren van een 10 seconden durende 540x540p video in 10 seconden of 720x720p in 30 seconden op 8 H100 GPU's, zonder kwaliteitsverlies. Evaluaties op onze nieuwe benchmark tonen de superioriteit van MagicInfinite aan op het gebied van audio-lipsynchronisatie, identiteitsbehoud en bewegingsnatuurlijkheid in diverse scenario's. Het is publiekelijk beschikbaar op https://www.hedra.com/, met voorbeelden op https://magicinfinite.github.io/.
English
We present MagicInfinite, a novel diffusion Transformer (DiT) framework that
overcomes traditional portrait animation limitations, delivering high-fidelity
results across diverse character types-realistic humans, full-body figures, and
stylized anime characters. It supports varied facial poses, including
back-facing views, and animates single or multiple characters with input masks
for precise speaker designation in multi-character scenes. Our approach tackles
key challenges with three innovations: (1) 3D full-attention mechanisms with a
sliding window denoising strategy, enabling infinite video generation with
temporal coherence and visual quality across diverse character styles; (2) a
two-stage curriculum learning scheme, integrating audio for lip sync, text for
expressive dynamics, and reference images for identity preservation, enabling
flexible multi-modal control over long sequences; and (3) region-specific masks
with adaptive loss functions to balance global textual control and local audio
guidance, supporting speaker-specific animations. Efficiency is enhanced via
our innovative unified step and cfg distillation techniques, achieving a 20x
inference speed boost over the basemodel: generating a 10 second 540x540p video
in 10 seconds or 720x720p in 30 seconds on 8 H100 GPUs, without quality loss.
Evaluations on our new benchmark demonstrate MagicInfinite's superiority in
audio-lip synchronization, identity preservation, and motion naturalness across
diverse scenarios. It is publicly available at https://www.hedra.com/, with
examples at https://magicinfinite.github.io/.Summary
AI-Generated Summary