DreamID-Omni: 인간 중심 오디오-비디오 생성 제어를 위한 통합 프레임워크
DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation
February 12, 2026
저자: Xu Guo, Fulong Ye, Qichao Sun, Liyang Chen, Bingchuan Li, Pengze Zhang, Jiawei Liu, Songtao Zhao, Qian He, Xiangwang Hou
cs.AI
초록
최근 파운데이션 모델의 발전으로 오디오-비디오 결합 생성 기술에 혁신이 일어났습니다. 그러나 기존 접근법들은 일반적으로 참조 기반 오디오-비디오 생성(R2AV), 비디오 편집(RV2AV), 오디오 기반 비디오 애니메이션(RA2V) 등 인간 중심 작업을 각각 독립된 목표로 취급해왔습니다. 더욱이 단일 프레임워크 내에서 여러 인물의 정체성과 음색에 대한 정밀하고 분리된 제어를 달성하는 것은 여전히 해결 과제로 남아 있습니다. 본 논문에서는 제어 가능한 인간 중심 오디오-비디오 생성을 위한 통합 프레임워크인 DreamID-Omni를 제안합니다. 구체적으로, 이종 조건 신호를 대칭적 조건 주입 방식을 통해 통합하는 Symmetric Conditional Diffusion Transformer를 설계합니다. 다인원 시나리오에서 흔히 발생하는 정체성-음색 결합 실패 및 화자 혼동 문제를 해결하기 위해 이중 수준 분리 전략을 도입합니다: 신호 수준에서는 강력한 어텐션 공간 결합을 보장하는 Synchronized RoPE를, 의미 수준에서는 명시적 속성-주체 매핑을 구축하는 Structured Captions를 적용합니다. 또한, 약하게 제약된 생성 사전 지식을 활용하여 강하게 제약된 작업을 규제하는 Multi-Task Progressive Training 기법을 고안하여 과적합을 방지하고 상이한 목표들을 조화시킵니다. 폭넓은 실험을 통해 DreamID-Omni가 비디오, 오디오, 오디오-비디오 일관성 전반에 걸쳐 포괄적인 최첨단 성능을 달성하며, 심지어 주요 상용 상업 모델들을 능가함을 입증합니다. 학술 연구와 상용 수준 애플리케이션 간의 격차를 해소하기 위해 코드를 공개할 예정입니다.
English
Recent advancements in foundation models have revolutionized joint audio-video generation. However, existing approaches typically treat human-centric tasks including reference-based audio-video generation (R2AV), video editing (RV2AV) and audio-driven video animation (RA2V) as isolated objectives. Furthermore, achieving precise, disentangled control over multiple character identities and voice timbres within a single framework remains an open challenge. In this paper, we propose DreamID-Omni, a unified framework for controllable human-centric audio-video generation. Specifically, we design a Symmetric Conditional Diffusion Transformer that integrates heterogeneous conditioning signals via a symmetric conditional injection scheme. To resolve the pervasive identity-timbre binding failures and speaker confusion in multi-person scenarios, we introduce a Dual-Level Disentanglement strategy: Synchronized RoPE at the signal level to ensure rigid attention-space binding, and Structured Captions at the semantic level to establish explicit attribute-subject mappings. Furthermore, we devise a Multi-Task Progressive Training scheme that leverages weakly-constrained generative priors to regularize strongly-constrained tasks, preventing overfitting and harmonizing disparate objectives. Extensive experiments demonstrate that DreamID-Omni achieves comprehensive state-of-the-art performance across video, audio, and audio-visual consistency, even outperforming leading proprietary commercial models. We will release our code to bridge the gap between academic research and commercial-grade applications.