DreamID-Omni: Marco Unificado para la Generación Controllable de Audio-Video Centrado en el Ser Humano

Resumen

Los recientes avances en modelos fundacionales han revolucionado la generación conjunta de audio y vídeo. Sin embargo, los enfoques existentes suelen tratar las tareas centradas en el ser humano, incluyendo la generación audio-vídeo basada en referencia (R2AV), la edición de vídeo (RV2AV) y la animación de vídeo impulsada por audio (RA2V), como objetivos aislados. Además, lograr un control preciso y desenredado sobre múltiples identidades de personajes y timbres de voz dentro de un único marco de trabajo sigue siendo un desafío pendiente. En este artículo, proponemos DreamID-Omni, un marco unificado para la generación audio-vídeo controlable y centrada en el ser humano. Específicamente, diseñamos un Transformer de Difusión Condicional Simétrico que integra señales de condicionamiento heterogéneas mediante un esquema simétrico de inyección condicional. Para resolver los fallos generalizados de vinculación identidad-timbre y la confusión entre interlocutores en escenarios multipersona, introducimos una estrategia de Desenredado de Doble Nivel: RoPE Sincronizado a nivel de señal para garantizar una vinculación rígida en el espacio de atención, y Subtítulos Estructurados a nivel semántico para establecer mapeos explícitos entre atributos y sujetos. Además, ideamos un esquema de Entrenamiento Progresivo Multi-Tarea que aprovecha priors generativos débilmente restringidos para regularizar tareas fuertemente restringidas, evitando el sobreajuste y armonizando objetivos dispares. Experimentos exhaustivos demuestran que DreamID-Omni logra un rendimiento integral de vanguardia en vídeo, audio y consistencia audiovisual, superando incluso a los principales modelos comerciales propietarios. Liberaremos nuestro código para salvar la brecha entre la investigación académica y las aplicaciones de grado comercial.

English

Recent advancements in foundation models have revolutionized joint audio-video generation. However, existing approaches typically treat human-centric tasks including reference-based audio-video generation (R2AV), video editing (RV2AV) and audio-driven video animation (RA2V) as isolated objectives. Furthermore, achieving precise, disentangled control over multiple character identities and voice timbres within a single framework remains an open challenge. In this paper, we propose DreamID-Omni, a unified framework for controllable human-centric audio-video generation. Specifically, we design a Symmetric Conditional Diffusion Transformer that integrates heterogeneous conditioning signals via a symmetric conditional injection scheme. To resolve the pervasive identity-timbre binding failures and speaker confusion in multi-person scenarios, we introduce a Dual-Level Disentanglement strategy: Synchronized RoPE at the signal level to ensure rigid attention-space binding, and Structured Captions at the semantic level to establish explicit attribute-subject mappings. Furthermore, we devise a Multi-Task Progressive Training scheme that leverages weakly-constrained generative priors to regularize strongly-constrained tasks, preventing overfitting and harmonizing disparate objectives. Extensive experiments demonstrate that DreamID-Omni achieves comprehensive state-of-the-art performance across video, audio, and audio-visual consistency, even outperforming leading proprietary commercial models. We will release our code to bridge the gap between academic research and commercial-grade applications.

DreamID-Omni: Marco Unificado para la Generación Controllable de Audio-Video Centrado en el Ser Humano

DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation

Resumen

Support