ChatPaper.aiChatPaper

MagicInfinite: Генерация бесконечных видео с речью на основе ваших слов и голоса

MagicInfinite: Generating Infinite Talking Videos with Your Words and Voice

March 7, 2025
Авторы: Hongwei Yi, Tian Ye, Shitong Shao, Xuancheng Yang, Jiantong Zhao, Hanzhong Guo, Terrance Wang, Qingyu Yin, Zeke Xie, Lei Zhu, Wei Li, Michael Lingelbach, Daquan Zhou
cs.AI

Аннотация

Мы представляем MagicInfinite, новаторскую фреймворк на основе диффузионных трансформеров (DiT), который преодолевает ограничения традиционной анимации портретов, обеспечивая высококачественные результаты для различных типов персонажей — реалистичных людей, полноростовых фигур и стилизованных аниме-персонажей. Он поддерживает различные позы лица, включая виды сзади, и анимирует одного или нескольких персонажей с использованием входных масок для точного обозначения говорящего в сценах с несколькими персонажами. Наш подход решает ключевые задачи с помощью трех инноваций: (1) механизмы полного 3D-внимания со стратегией скользящего окна для удаления шума, позволяющие генерировать бесконечные видео с временной согласованностью и визуальным качеством для различных стилей персонажей; (2) двухэтапная схема обучения с интеграцией аудио для синхронизации губ, текста для выразительной динамики и эталонных изображений для сохранения идентичности, обеспечивающая гибкий многомодальный контроль над длинными последовательностями; и (3) региональные маски с адаптивными функциями потерь для баланса глобального текстового контроля и локального аудио-руководства, поддерживающие анимацию для конкретных говорящих. Эффективность повышена благодаря нашим инновационным техникам унифицированного шага и дистилляции cfg, что обеспечивает 20-кратное ускорение вывода по сравнению с базовой моделью: генерация 10-секундного видео 540x540p за 10 секунд или 720x720p за 30 секунд на 8 GPU H100 без потери качества. Оценки на нашем новом бенчмарке демонстрируют превосходство MagicInfinite в синхронизации аудио и губ, сохранении идентичности и естественности движений в различных сценариях. Фреймворк доступен публично по адресу https://www.hedra.com/, с примерами на https://magicinfinite.github.io/.
English
We present MagicInfinite, a novel diffusion Transformer (DiT) framework that overcomes traditional portrait animation limitations, delivering high-fidelity results across diverse character types-realistic humans, full-body figures, and stylized anime characters. It supports varied facial poses, including back-facing views, and animates single or multiple characters with input masks for precise speaker designation in multi-character scenes. Our approach tackles key challenges with three innovations: (1) 3D full-attention mechanisms with a sliding window denoising strategy, enabling infinite video generation with temporal coherence and visual quality across diverse character styles; (2) a two-stage curriculum learning scheme, integrating audio for lip sync, text for expressive dynamics, and reference images for identity preservation, enabling flexible multi-modal control over long sequences; and (3) region-specific masks with adaptive loss functions to balance global textual control and local audio guidance, supporting speaker-specific animations. Efficiency is enhanced via our innovative unified step and cfg distillation techniques, achieving a 20x inference speed boost over the basemodel: generating a 10 second 540x540p video in 10 seconds or 720x720p in 30 seconds on 8 H100 GPUs, without quality loss. Evaluations on our new benchmark demonstrate MagicInfinite's superiority in audio-lip synchronization, identity preservation, and motion naturalness across diverse scenarios. It is publicly available at https://www.hedra.com/, with examples at https://magicinfinite.github.io/.

Summary

AI-Generated Summary

PDF352March 12, 2025