StableAvatar: Генерация видеоаватаров с неограниченной длительностью на основе аудио

Аннотация

Современные диффузионные модели для генерации видео аватаров на основе аудио сталкиваются с трудностями при синтезе длинных видео с естественной синхронизацией звука и сохранением идентичности. В данной статье представлен StableAvatar — первый сквозной видео-диффузионный трансформер, который синтезирует высококачественные видео бесконечной длины без постобработки. Опираясь на эталонное изображение и аудио, StableAvatar интегрирует специализированные модули обучения и вывода, что позволяет генерировать видео неограниченной длины. Мы отмечаем, что основная причина, препятствующая существующим моделям в создании длинных видео, заключается в их подходе к моделированию аудио. Обычно они полагаются на сторонние готовые экстракторы для получения аудио-эмбеддингов, которые затем напрямую внедряются в диффузионную модель через кросс-внимание. Поскольку текущие архитектуры диффузионных моделей не имеют априорных знаний, связанных с аудио, такой подход вызывает накопление ошибок в латентном распределении между видеофрагментами, что приводит к постепенному отклонению латентного распределения последующих сегментов от оптимального. Для решения этой проблемы StableAvatar представляет новый Time-step-aware Audio Adapter, который предотвращает накопление ошибок за счет модуляции, учитывающей временные шаги. Во время вывода мы предлагаем новый механизм Audio Native Guidance Mechanism, который дополнительно улучшает синхронизацию аудио, используя собственное развивающееся совместное предсказание аудио-латентного пространства диффузионной модели в качестве динамического сигнала управления. Для повышения плавности видео бесконечной длины мы вводим стратегию Dynamic Weighted Sliding-window Strategy, которая объединяет латентные представления во времени. Эксперименты на эталонных наборах данных демонстрируют эффективность StableAvatar как качественно, так и количественно.

English

Current diffusion models for audio-driven avatar video generation struggle to synthesize long videos with natural audio synchronization and identity consistency. This paper presents StableAvatar, the first end-to-end video diffusion transformer that synthesizes infinite-length high-quality videos without post-processing. Conditioned on a reference image and audio, StableAvatar integrates tailored training and inference modules to enable infinite-length video generation. We observe that the main reason preventing existing models from generating long videos lies in their audio modeling. They typically rely on third-party off-the-shelf extractors to obtain audio embeddings, which are then directly injected into the diffusion model via cross-attention. Since current diffusion backbones lack any audio-related priors, this approach causes severe latent distribution error accumulation across video clips, leading the latent distribution of subsequent segments to drift away from the optimal distribution gradually. To address this, StableAvatar introduces a novel Time-step-aware Audio Adapter that prevents error accumulation via time-step-aware modulation. During inference, we propose a novel Audio Native Guidance Mechanism to further enhance the audio synchronization by leveraging the diffusion's own evolving joint audio-latent prediction as a dynamic guidance signal. To enhance the smoothness of the infinite-length videos, we introduce a Dynamic Weighted Sliding-window Strategy that fuses latent over time. Experiments on benchmarks show the effectiveness of StableAvatar both qualitatively and quantitatively.

StableAvatar: Генерация видеоаватаров с неограниченной длительностью на основе аудио

StableAvatar: Infinite-Length Audio-Driven Avatar Video Generation

Аннотация

Support