DreamID-Omni: Framework Unificato per la Generazione Audio-Video Controllabile e Centrata sull'Umano

Abstract

I recenti progressi nei modelli fondazionali hanno rivoluzionato la generazione congiunta audio-video. Tuttavia, gli approcci esistenti trattano tipicamente i compiti incentrati sull'uomo, inclusi la generazione audio-video basata su riferimento (R2AV), l'editing video (RV2AV) e l'animazione video guidata dall'audio (RA2V), come obiettivi isolati. Inoltre, ottenere un controllo preciso e disaccoppiato su multiple identità di personaggi e timbri vocali all'interno di un unico framework rimane una sfida aperta. In questo articolo, proponiamo DreamID-Omni, un framework unificato per la generazione audio-video controllabile e incentrata sull'uomo. Nello specifico, progettiamo un Trasformatore Diffusivo Condizionale Simmetrico che integra segnali di condizionamento eterogenei attraverso uno schema di iniezione condizionale simmetrica. Per risolvere i diffusi fallimenti del legame identità-timbro e la confusione tra parlanti in scenari multi-persona, introduciamo una strategia di Disaccoppiamento a Doppio Livello: RoPE Sincronizzato a livello di segnale per garantire un legame rigido nello spazio di attenzione, e Didascalie Strutturate a livello semantico per stabilire mappature esplicite attributo-soggetto. Inoltre, ideiamo uno Schema di Addestramento Progressivo Multi-Task che sfrutta priorità generative debolmente vincolate per regolarizzare compiti fortemente vincolati, prevenendo l'overfitting e armonizzando obiettivi disparati. Esperimenti estensivi dimostrano che DreamID-Omni raggiunge prestazioni allo stato dell'arte complete in termini di coerenza video, audio e audio-visiva, superando persino modelli commerciali proprietari leader. Rilasceremo il nostro codice per colmare il divario tra la ricerca accademica e le applicazioni di livello commerciale.

English

Recent advancements in foundation models have revolutionized joint audio-video generation. However, existing approaches typically treat human-centric tasks including reference-based audio-video generation (R2AV), video editing (RV2AV) and audio-driven video animation (RA2V) as isolated objectives. Furthermore, achieving precise, disentangled control over multiple character identities and voice timbres within a single framework remains an open challenge. In this paper, we propose DreamID-Omni, a unified framework for controllable human-centric audio-video generation. Specifically, we design a Symmetric Conditional Diffusion Transformer that integrates heterogeneous conditioning signals via a symmetric conditional injection scheme. To resolve the pervasive identity-timbre binding failures and speaker confusion in multi-person scenarios, we introduce a Dual-Level Disentanglement strategy: Synchronized RoPE at the signal level to ensure rigid attention-space binding, and Structured Captions at the semantic level to establish explicit attribute-subject mappings. Furthermore, we devise a Multi-Task Progressive Training scheme that leverages weakly-constrained generative priors to regularize strongly-constrained tasks, preventing overfitting and harmonizing disparate objectives. Extensive experiments demonstrate that DreamID-Omni achieves comprehensive state-of-the-art performance across video, audio, and audio-visual consistency, even outperforming leading proprietary commercial models. We will release our code to bridge the gap between academic research and commercial-grade applications.

DreamID-Omni: Framework Unificato per la Generazione Audio-Video Controllabile e Centrata sull'Umano

DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation

Abstract

Support