DreamID-Omni : Un cadre unifié pour la génération audio-vidéo centrée sur l'humain et contrôlable

Résumé

Les progrès récents des modèles de fondation ont révolutionné la génération audio-vidéo conjointe. Cependant, les approches existantes traitent généralement les tâches centrées sur l'humain - incluant la génération audio-vidéo par référence (R2AV), l'édition vidéo (RV2AV) et l'animation vidéo pilotée par l'audio (RA2V) - comme des objectifs isolés. De plus, la réalisation d'un contrôle précis et désentrelacé de multiples identités de personnages et de timbres vocaux au sein d'un même cadre reste un défi non résolu. Dans cet article, nous proposons DreamID-Omni, un cadre unifié pour la génération audio-vidéo contrôlable centrée sur l'humain. Plus précisément, nous concevons un Transformeur de Diffusion Conditionnel Symétrique qui intègre des signaux de conditionnement hétérogènes via un schéma d'injection conditionnelle symétrique. Pour résoudre les échecs omniprésents de liaison identité-timbre et la confusion des locuteurs dans les scénarios multi-personnes, nous introduisons une stratégie de Désentrelacement Dual : le RoPE Synchronisé au niveau du signal pour garantir une liaison rigide dans l'espace d'attention, et les Captions Structurées au niveau sémantique pour établir des mappings explicites attribut-sujet. En outre, nous concevons un schéma d'Entraînement Progressif Multi-Tâches qui exploite des préalables génératifs faiblement contraints pour régulariser les tâches fortement contraintes, empêchant le surapprentissage et harmonisant des objectifs disparates. Des expériences approfondies démontrent que DreamID-Omni atteint des performances complètes de pointe à travers la cohérence vidéo, audio et audio-visuelle, surpassant même les principaux modèles commerciaux propriétaires. Nous publierons notre code pour combler le fossé entre la recherche académique et les applications de qualité commerciale.

English

Recent advancements in foundation models have revolutionized joint audio-video generation. However, existing approaches typically treat human-centric tasks including reference-based audio-video generation (R2AV), video editing (RV2AV) and audio-driven video animation (RA2V) as isolated objectives. Furthermore, achieving precise, disentangled control over multiple character identities and voice timbres within a single framework remains an open challenge. In this paper, we propose DreamID-Omni, a unified framework for controllable human-centric audio-video generation. Specifically, we design a Symmetric Conditional Diffusion Transformer that integrates heterogeneous conditioning signals via a symmetric conditional injection scheme. To resolve the pervasive identity-timbre binding failures and speaker confusion in multi-person scenarios, we introduce a Dual-Level Disentanglement strategy: Synchronized RoPE at the signal level to ensure rigid attention-space binding, and Structured Captions at the semantic level to establish explicit attribute-subject mappings. Furthermore, we devise a Multi-Task Progressive Training scheme that leverages weakly-constrained generative priors to regularize strongly-constrained tasks, preventing overfitting and harmonizing disparate objectives. Extensive experiments demonstrate that DreamID-Omni achieves comprehensive state-of-the-art performance across video, audio, and audio-visual consistency, even outperforming leading proprietary commercial models. We will release our code to bridge the gap between academic research and commercial-grade applications.

DreamID-Omni : Un cadre unifié pour la génération audio-vidéo centrée sur l'humain et contrôlable

DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation

Résumé

Support