DreamID-Omni: Унифицированная система для управляемой генерации видео с человеком в центре на основе аудио

Аннотация

Последние достижения в области базовых моделей произвели революцию в совместной генерации аудио и видео. Однако существующие подходы обычно рассматривают ориентированные на человека задачи, включая генерацию аудио-видео по ссылке (R2AV), редактирование видео (RV2AV) и анимацию видео на основе аудио (RA2V), как изолированные цели. Более того, достижение точного, раздельного управления множественными идентичностями персонажей и тембрами голоса в рамках единой системы остается нерешенной задачей. В данной статье мы предлагаем DreamID-Omni — унифицированную систему для управляемой ориентированной на человека генерации аудио и видео. В частности, мы разрабатываем Симметричный Условный Трансформер Диффузии, который интегрирует гетерогенные управляющие сигналы посредством схемы симметричного условного внедрения. Для решения повсеместных проблем связывания идентичности и тембра и путаницы между говорящими в сценариях с несколькими людьми мы вводим стратегию Двухуровневой Диссоциации: Synchronized RoPE на сигнальном уровне для обеспечения жесткой привязки в пространстве внимания и Структурированные Подписи на семантическом уровне для установления явных соответствий между атрибутами и субъектами. Кроме того, мы разрабатываем схему Многоцелевого Прогрессивного Обучения, которая использует слабоограниченные генеративные априорные данные для регуляризации сильноограниченных задач, предотвращая переобучение и гармонизируя различные цели. Многочисленные эксперименты демонстрируют, что DreamID-Omni достигает всестороннего передового уровня производительности по видео, аудио и аудиовизуальной согласованности, превосходя даже ведущие проприетарные коммерческие модели. Мы опубликуем наш код, чтобы сократить разрыв между академическими исследованиями и коммерческими приложениями.

English

Recent advancements in foundation models have revolutionized joint audio-video generation. However, existing approaches typically treat human-centric tasks including reference-based audio-video generation (R2AV), video editing (RV2AV) and audio-driven video animation (RA2V) as isolated objectives. Furthermore, achieving precise, disentangled control over multiple character identities and voice timbres within a single framework remains an open challenge. In this paper, we propose DreamID-Omni, a unified framework for controllable human-centric audio-video generation. Specifically, we design a Symmetric Conditional Diffusion Transformer that integrates heterogeneous conditioning signals via a symmetric conditional injection scheme. To resolve the pervasive identity-timbre binding failures and speaker confusion in multi-person scenarios, we introduce a Dual-Level Disentanglement strategy: Synchronized RoPE at the signal level to ensure rigid attention-space binding, and Structured Captions at the semantic level to establish explicit attribute-subject mappings. Furthermore, we devise a Multi-Task Progressive Training scheme that leverages weakly-constrained generative priors to regularize strongly-constrained tasks, preventing overfitting and harmonizing disparate objectives. Extensive experiments demonstrate that DreamID-Omni achieves comprehensive state-of-the-art performance across video, audio, and audio-visual consistency, even outperforming leading proprietary commercial models. We will release our code to bridge the gap between academic research and commercial-grade applications.

DreamID-Omni: Унифицированная система для управляемой генерации видео с человеком в центре на основе аудио

DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation

Аннотация

Support