DreamID-Omni: Um Framework Unificado para Geração Controlável de Áudio-Vídeo Centrado no Humano

Resumo

Os recentes avanços em modelos de base revolucionaram a geração conjunta de áudio e vídeo. No entanto, as abordagens existentes geralmente tratam tarefas centradas no ser humano — incluindo geração áudio-vídeo baseada em referência (R2AV), edição de vídeo (RV2AV) e animação de vídeo dirigida por áudio (RA2V) — como objetivos isolados. Além disso, alcançar um controle preciso e desacoplado sobre múltiplas identidades de personagens e timbres de voz dentro de uma única estrutura continua sendo um desafio em aberto. Neste artigo, propomos o DreamID-Omni, uma estrutura unificada para geração controlada de áudio-vídeo centrada no ser humano. Especificamente, projetamos um Transformer de Difusão Condicional Simétrico que integra sinais de condicionamento heterogéneos através de um esquema simétrico de injeção condicional. Para resolver as falhas generalizadas de vinculação identidade-timbre e a confusão entre locutores em cenários multipessoa, introduzimos uma estratégia de Desacoplamento Dual: RoPE Sincronizado a nível de sinal para garantir uma vinculação rígida no espaço de atenção, e Legendas Estruturadas a nível semântico para estabelecer mapeamentos explícitos entre atributos e sujeitos. Adicionalmente, concebemos um esquema de Treino Progressivo Multi-Tarefa que aproveita prévios generativos fracamente restritos para regularizar tarefas fortemente restritas, prevenindo sobreajuste e harmonizando objetivos díspares. Experimentos extensivos demonstram que o DreamID-Omni alcança um desempenho abrangente de última geração em vídeo, áudio e consistência áudio-visual, superando até mesmo os principais modelos comerciais proprietários. Disponibilizaremos nosso código para colmatar a lacuna entre a investigação académica e as aplicações de nível comercial.

English

Recent advancements in foundation models have revolutionized joint audio-video generation. However, existing approaches typically treat human-centric tasks including reference-based audio-video generation (R2AV), video editing (RV2AV) and audio-driven video animation (RA2V) as isolated objectives. Furthermore, achieving precise, disentangled control over multiple character identities and voice timbres within a single framework remains an open challenge. In this paper, we propose DreamID-Omni, a unified framework for controllable human-centric audio-video generation. Specifically, we design a Symmetric Conditional Diffusion Transformer that integrates heterogeneous conditioning signals via a symmetric conditional injection scheme. To resolve the pervasive identity-timbre binding failures and speaker confusion in multi-person scenarios, we introduce a Dual-Level Disentanglement strategy: Synchronized RoPE at the signal level to ensure rigid attention-space binding, and Structured Captions at the semantic level to establish explicit attribute-subject mappings. Furthermore, we devise a Multi-Task Progressive Training scheme that leverages weakly-constrained generative priors to regularize strongly-constrained tasks, preventing overfitting and harmonizing disparate objectives. Extensive experiments demonstrate that DreamID-Omni achieves comprehensive state-of-the-art performance across video, audio, and audio-visual consistency, even outperforming leading proprietary commercial models. We will release our code to bridge the gap between academic research and commercial-grade applications.

DreamID-Omni: Um Framework Unificado para Geração Controlável de Áudio-Vídeo Centrado no Humano

DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation

Resumo

Support