MagicInfinite: Генерация бесконечных видео с речью на основе ваших слов и голоса

Аннотация

Мы представляем MagicInfinite, новаторскую фреймворк на основе диффузионных трансформеров (DiT), который преодолевает ограничения традиционной анимации портретов, обеспечивая высококачественные результаты для различных типов персонажей — реалистичных людей, полноростовых фигур и стилизованных аниме-персонажей. Он поддерживает различные позы лица, включая виды сзади, и анимирует одного или нескольких персонажей с использованием входных масок для точного обозначения говорящего в сценах с несколькими персонажами. Наш подход решает ключевые задачи с помощью трех инноваций: (1) механизмы полного 3D-внимания со стратегией скользящего окна для удаления шума, позволяющие генерировать бесконечные видео с временной согласованностью и визуальным качеством для различных стилей персонажей; (2) двухэтапная схема обучения с интеграцией аудио для синхронизации губ, текста для выразительной динамики и эталонных изображений для сохранения идентичности, обеспечивающая гибкий многомодальный контроль над длинными последовательностями; и (3) региональные маски с адаптивными функциями потерь для баланса глобального текстового контроля и локального аудио-руководства, поддерживающие анимацию для конкретных говорящих. Эффективность повышена благодаря нашим инновационным техникам унифицированного шага и дистилляции cfg, что обеспечивает 20-кратное ускорение вывода по сравнению с базовой моделью: генерация 10-секундного видео 540x540p за 10 секунд или 720x720p за 30 секунд на 8 GPU H100 без потери качества. Оценки на нашем новом бенчмарке демонстрируют превосходство MagicInfinite в синхронизации аудио и губ, сохранении идентичности и естественности движений в различных сценариях. Фреймворк доступен публично по адресу https://www.hedra.com/, с примерами на https://magicinfinite.github.io/.

English

We present MagicInfinite, a novel diffusion Transformer (DiT) framework that overcomes traditional portrait animation limitations, delivering high-fidelity results across diverse character types-realistic humans, full-body figures, and stylized anime characters. It supports varied facial poses, including back-facing views, and animates single or multiple characters with input masks for precise speaker designation in multi-character scenes. Our approach tackles key challenges with three innovations: (1) 3D full-attention mechanisms with a sliding window denoising strategy, enabling infinite video generation with temporal coherence and visual quality across diverse character styles; (2) a two-stage curriculum learning scheme, integrating audio for lip sync, text for expressive dynamics, and reference images for identity preservation, enabling flexible multi-modal control over long sequences; and (3) region-specific masks with adaptive loss functions to balance global textual control and local audio guidance, supporting speaker-specific animations. Efficiency is enhanced via our innovative unified step and cfg distillation techniques, achieving a 20x inference speed boost over the basemodel: generating a 10 second 540x540p video in 10 seconds or 720x720p in 30 seconds on 8 H100 GPUs, without quality loss. Evaluations on our new benchmark demonstrate MagicInfinite's superiority in audio-lip synchronization, identity preservation, and motion naturalness across diverse scenarios. It is publicly available at https://www.hedra.com/, with examples at https://magicinfinite.github.io/.