DreamID-Omni: Einheitlicher Rahmenwerk für kontrollierbare, menschenzentrierte Audio-Video-Generierung
DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation
February 12, 2026
papers.authors: Xu Guo, Fulong Ye, Qichao Sun, Liyang Chen, Bingchuan Li, Pengze Zhang, Jiawei Liu, Songtao Zhao, Qian He, Xiangwang Hou
cs.AI
papers.abstract
Jüngste Fortschritte bei Foundation-Modellen haben die gemeinsame Audio-Video-Generierung revolutioniert. Bisherige Ansätze behandeln jedoch typischerweise menschenzentrierte Aufgaben, wie referenzbasierte Audio-Video-Generierung (R2AV), Videobearbeitung (RV2AV) und audiogesteuerte Videoanimation (RA2V), als isolierte Ziele. Darüber hinaus bleibt die präzise, entflochtene Steuerung mehrerer Charakteridentitäten und Stimmklangfarben innerhalb eines einzigen Frameworks eine ungelöste Herausforderung. In diesem Artikel stellen wir DreamID-Omni vor, ein vereinheitlichtes Framework für kontrollierbare, menschenzentrierte Audio-Video-Generierung. Konkret entwerfen wir einen Symmetrischen Konditionalen Diffusions-Transformer, der heterogene Konditionierungssignale über ein symmetrisches Konditionierungsinjektionsschema integriert. Um die weit verbreiteten Fehler bei der Identitäts-Klangfarben-Bindung und Sprecherverwechslungen in Multi-Person-Szenarien zu lösen, führen wir eine Dual-Level-Entflechtungsstrategie ein: Synchronisierte RoPE auf Signalebene, um eine starre Aufmerksamkeitsraum-Bindung zu gewährleisten, und Strukturierte Bildbeschreibungen auf semantischer Ebene, um explizite Attribut-Subjekt-Zuordnungen herzustellen. Des Weiteren entwickeln wir ein Multi-Task-Progressive-Training-Schema, das schwach eingeschränkte generative A-priori-Informationen nutzt, um stark eingeschränkte Aufgaben zu regularisieren, Overfitting zu verhindern und unterschiedliche Ziele zu harmonisieren. Umfangreiche Experimente zeigen, dass DreamID-Omni state-of-the-art Leistung in den Bereichen Video, Audio und audiovisuelle Konsistenz umfassend erreicht und sogar führende proprietäre kommerzielle Modelle übertrifft. Wir werden unseren Code veröffentlichen, um die Lücke zwischen akademischer Forschung und kommerziellen Anwendungen zu schließen.
English
Recent advancements in foundation models have revolutionized joint audio-video generation. However, existing approaches typically treat human-centric tasks including reference-based audio-video generation (R2AV), video editing (RV2AV) and audio-driven video animation (RA2V) as isolated objectives. Furthermore, achieving precise, disentangled control over multiple character identities and voice timbres within a single framework remains an open challenge. In this paper, we propose DreamID-Omni, a unified framework for controllable human-centric audio-video generation. Specifically, we design a Symmetric Conditional Diffusion Transformer that integrates heterogeneous conditioning signals via a symmetric conditional injection scheme. To resolve the pervasive identity-timbre binding failures and speaker confusion in multi-person scenarios, we introduce a Dual-Level Disentanglement strategy: Synchronized RoPE at the signal level to ensure rigid attention-space binding, and Structured Captions at the semantic level to establish explicit attribute-subject mappings. Furthermore, we devise a Multi-Task Progressive Training scheme that leverages weakly-constrained generative priors to regularize strongly-constrained tasks, preventing overfitting and harmonizing disparate objectives. Extensive experiments demonstrate that DreamID-Omni achieves comprehensive state-of-the-art performance across video, audio, and audio-visual consistency, even outperforming leading proprietary commercial models. We will release our code to bridge the gap between academic research and commercial-grade applications.