DreamID-Omni: Verenigd Kader voor Stuurbare Mensgerichte Audio-Videogeneratie

Samenvatting

Recente ontwikkelingen in foundation-modellen hebben een revolutie teweeggebracht in gezamenlijke audio-video-generatie. Bestaande benaderingen behandelen echter typisch mensgerichte taken, waaronder referentiegebaseerde audio-video-generatie (R2AV), videobewerking (RV2AV) en audiogestuurde video-animatie (RA2V), als geïsoleerde doelstellingen. Bovendien blijft het bereiken van precieze, ontvlochten controle over meerdere personage-identiteiten en stemtimbre binnen een enkel raamwerk een onopgeloste uitdaging. In dit artikel stellen we DreamID-Omni voor, een uniform raamwerk voor beheerbare, mensgerichte audio-video-generatie. Concreet ontwerpen we een Symmetrische Conditionele Diffusion Transformer die heterogene conditioneringssignalen integreert via een symmetrisch conditioneel injectieschema. Om de veelvoorkomende mislukkingen in identiteit-timbre-koppeling en sprekerverwarring in scenario's met meerdere personen op te lossen, introduceren we een Dual-Level Ontvlechtingstrategie: Gesynchroniseerde RoPE op signaalmiveau om rigide aandacht-ruimte-koppeling te waarborgen, en Gestructureerde Bijschriften op semantisch niveau om expliciete attribuut-subject-mappingen tot stand te brengen. Verder bedenken we een Multi-Task Progressief Trainingsschema dat zwak-constrained generatieve prioriteiten benut om sterk-constrained taken te regulariseren, om overfitting te voorkomen en uiteenlopende doelstellingen te harmoniseren. Uitgebreide experimenten tonen aan dat DreamID-Omni een alomvattende state-of-the-art prestaties bereikt op het gebied van video, audio en audiovisuele consistentie, en zelfs toonaangevende propriëtaire commerciële modellen overtreft. Wij zullen onze code vrijgeven om de kloof tussen academisch onderzoek en commerciële toepassingen te overbruggen.

English

Recent advancements in foundation models have revolutionized joint audio-video generation. However, existing approaches typically treat human-centric tasks including reference-based audio-video generation (R2AV), video editing (RV2AV) and audio-driven video animation (RA2V) as isolated objectives. Furthermore, achieving precise, disentangled control over multiple character identities and voice timbres within a single framework remains an open challenge. In this paper, we propose DreamID-Omni, a unified framework for controllable human-centric audio-video generation. Specifically, we design a Symmetric Conditional Diffusion Transformer that integrates heterogeneous conditioning signals via a symmetric conditional injection scheme. To resolve the pervasive identity-timbre binding failures and speaker confusion in multi-person scenarios, we introduce a Dual-Level Disentanglement strategy: Synchronized RoPE at the signal level to ensure rigid attention-space binding, and Structured Captions at the semantic level to establish explicit attribute-subject mappings. Furthermore, we devise a Multi-Task Progressive Training scheme that leverages weakly-constrained generative priors to regularize strongly-constrained tasks, preventing overfitting and harmonizing disparate objectives. Extensive experiments demonstrate that DreamID-Omni achieves comprehensive state-of-the-art performance across video, audio, and audio-visual consistency, even outperforming leading proprietary commercial models. We will release our code to bridge the gap between academic research and commercial-grade applications.

DreamID-Omni: Verenigd Kader voor Stuurbare Mensgerichte Audio-Videogeneratie

DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation

Samenvatting

Support