ISDrama: Generazione di Drammaturgia Spaziale Immersiva tramite Prompting Multimodale

Abstract

La generazione di drammi spaziali immersivi multimodali si concentra sulla creazione di un parlato binaurale continuo multi-parlante con prosodia drammatica basata su prompt multimodali, con potenziali applicazioni in AR, VR e altri ambiti. Questo compito richiede la modellazione simultanea delle informazioni spaziali e della prosodia drammatica basata su input multimodali, con costi elevati di raccolta dati. Per quanto ne sappiamo, il nostro lavoro rappresenta il primo tentativo di affrontare queste sfide. Abbiamo costruito MRSDrama, il primo dataset di drammi spaziali registrati multimodali, contenente audio binaurali di drammi, script, video, pose geometriche e prompt testuali. Successivamente, abbiamo proposto ISDrama, il primo modello di generazione di drammi spaziali immersivi tramite prompt multimodali. ISDrama comprende questi componenti principali: 1) Codificatore di Pose Multimodale, basato sull'apprendimento contrastivo, che considera l'effetto Doppler causato dai parlanti in movimento per estrarre informazioni unificate sulla pose dai prompt multimodali. 2) Trasformatore di Drammi Immersivi, un modello mamba-transformer basato su flusso che genera drammi di alta qualità, incorporando Drama-MOE per selezionare gli esperti appropriati per un migliore controllo della prosodia e della pose. Abbiamo anche progettato una strategia di guida senza classificatore coerente con il contesto per generare in modo coerente drammi completi. I risultati sperimentali mostrano che ISDrama supera i modelli di riferimento su metriche oggettive e soggettive. Le demo e il dataset sono disponibili all'indirizzo https://aaronz345.github.io/ISDramaDemo.

English

Multimodal immersive spatial drama generation focuses on creating continuous multi-speaker binaural speech with dramatic prosody based on multimodal prompts, with potential applications in AR, VR, and others. This task requires simultaneous modeling of spatial information and dramatic prosody based on multimodal inputs, with high data collection costs. To the best of our knowledge, our work is the first attempt to address these challenges. We construct MRSDrama, the first multimodal recorded spatial drama dataset, containing binaural drama audios, scripts, videos, geometric poses, and textual prompts. Then, we propose ISDrama, the first immersive spatial drama generation model through multimodal prompting. ISDrama comprises these primary components: 1) Multimodal Pose Encoder, based on contrastive learning, considering the Doppler effect caused by moving speakers to extract unified pose information from multimodal prompts. 2) Immersive Drama Transformer, a flow-based mamba-transformer model that generates high-quality drama, incorporating Drama-MOE to select proper experts for enhanced prosody and pose control. We also design a context-consistent classifier-free guidance strategy to coherently generate complete drama. Experimental results show that ISDrama outperforms baseline models on objective and subjective metrics. The demos and dataset are available at https://aaronz345.github.io/ISDramaDemo.

ISDrama: Generazione di Drammaturgia Spaziale Immersiva tramite Prompting Multimodale

ISDrama: Immersive Spatial Drama Generation through Multimodal Prompting

Abstract

Support