MagicInfinite: 당신의 말과 목소리로 무한한 대화 영상 생성하기
MagicInfinite: Generating Infinite Talking Videos with Your Words and Voice
March 7, 2025
저자: Hongwei Yi, Tian Ye, Shitong Shao, Xuancheng Yang, Jiantong Zhao, Hanzhong Guo, Terrance Wang, Qingyu Yin, Zeke Xie, Lei Zhu, Wei Li, Michael Lingelbach, Daquan Zhou
cs.AI
초록
우리는 기존의 초상화 애니메이션 한계를 극복하고 다양한 캐릭터 유형(실사 인간, 전신 인물, 스타일화된 애니메이션 캐릭터)에 걸쳐 높은 충실도의 결과를 제공하는 새로운 디퓨전 트랜스포머(DiT) 프레임워크인 MagicInfinite를 소개합니다. 이 프레임워크는 뒷모습을 포함한 다양한 얼굴 자세를 지원하며, 다중 캐릭터 장면에서 정확한 화자 지정을 위한 입력 마스크를 통해 단일 또는 다중 캐릭터를 애니메이션화합니다. 우리의 접근 방식은 세 가지 혁신을 통해 주요 과제를 해결합니다: (1) 슬라이딩 윈도우 디노이징 전략과 함께 3D 전체-어텐션 메커니즘을 사용하여 다양한 캐릭터 스타일에 걸쳐 시간적 일관성과 시각적 품질을 유지하며 무한 비디오 생성을 가능하게 합니다; (2) 두 단계의 커리큘럼 학습 방식을 통해, 입술 동기화를 위한 오디오, 표현력 있는 동작을 위한 텍스트, 그리고 신원 보존을 위한 참조 이미지를 통합하여 긴 시퀀스에 대한 유연한 다중 모달 제어를 가능하게 합니다; (3) 전역 텍스트 제어와 지역 오디오 안내를 균형 있게 조절하기 위한 적응형 손실 함수와 함께 지역별 마스크를 사용하여 화자별 애니메이션을 지원합니다. 효율성은 혁신적인 통합 단계 및 cfg 증류 기술을 통해 향상되어, 기본 모델 대비 20배의 추론 속도 향상을 달성했습니다: 8개의 H100 GPU에서 10초 길이의 540x540p 비디오를 10초 내에, 또는 720x720p 비디오를 30초 내에 품질 손실 없이 생성할 수 있습니다. 새로운 벤치마크에 대한 평가는 MagicInfinite가 다양한 시나리오에서 오디오-입술 동기화, 신원 보존, 그리고 동작의 자연스러움 측면에서 우수성을 보여줍니다. 이는 https://www.hedra.com/에서 공개적으로 이용 가능하며, 예제는 https://magicinfinite.github.io/에서 확인할 수 있습니다.
English
We present MagicInfinite, a novel diffusion Transformer (DiT) framework that
overcomes traditional portrait animation limitations, delivering high-fidelity
results across diverse character types-realistic humans, full-body figures, and
stylized anime characters. It supports varied facial poses, including
back-facing views, and animates single or multiple characters with input masks
for precise speaker designation in multi-character scenes. Our approach tackles
key challenges with three innovations: (1) 3D full-attention mechanisms with a
sliding window denoising strategy, enabling infinite video generation with
temporal coherence and visual quality across diverse character styles; (2) a
two-stage curriculum learning scheme, integrating audio for lip sync, text for
expressive dynamics, and reference images for identity preservation, enabling
flexible multi-modal control over long sequences; and (3) region-specific masks
with adaptive loss functions to balance global textual control and local audio
guidance, supporting speaker-specific animations. Efficiency is enhanced via
our innovative unified step and cfg distillation techniques, achieving a 20x
inference speed boost over the basemodel: generating a 10 second 540x540p video
in 10 seconds or 720x720p in 30 seconds on 8 H100 GPUs, without quality loss.
Evaluations on our new benchmark demonstrate MagicInfinite's superiority in
audio-lip synchronization, identity preservation, and motion naturalness across
diverse scenarios. It is publicly available at https://www.hedra.com/, with
examples at https://magicinfinite.github.io/.Summary
AI-Generated Summary