ISDrama: Generazione di Drammaturgia Spaziale Immersiva tramite Prompting Multimodale
ISDrama: Immersive Spatial Drama Generation through Multimodal Prompting
April 29, 2025
Autori: Yu Zhang, Wenxiang Guo, Changhao Pan, Zhiyuan Zhu, Tao Jin, Zhou Zhao
cs.AI
Abstract
La generazione di drammi spaziali immersivi multimodali si concentra sulla creazione di un parlato binaurale continuo multi-parlante con prosodia drammatica basata su prompt multimodali, con potenziali applicazioni in AR, VR e altri ambiti. Questo compito richiede la modellazione simultanea delle informazioni spaziali e della prosodia drammatica basata su input multimodali, con costi elevati di raccolta dati. Per quanto ne sappiamo, il nostro lavoro rappresenta il primo tentativo di affrontare queste sfide. Abbiamo costruito MRSDrama, il primo dataset di drammi spaziali registrati multimodali, contenente audio binaurali di drammi, script, video, pose geometriche e prompt testuali. Successivamente, abbiamo proposto ISDrama, il primo modello di generazione di drammi spaziali immersivi tramite prompt multimodali. ISDrama comprende questi componenti principali: 1) Codificatore di Pose Multimodale, basato sull'apprendimento contrastivo, che considera l'effetto Doppler causato dai parlanti in movimento per estrarre informazioni unificate sulla pose dai prompt multimodali. 2) Trasformatore di Drammi Immersivi, un modello mamba-transformer basato su flusso che genera drammi di alta qualità, incorporando Drama-MOE per selezionare gli esperti appropriati per un migliore controllo della prosodia e della pose. Abbiamo anche progettato una strategia di guida senza classificatore coerente con il contesto per generare in modo coerente drammi completi. I risultati sperimentali mostrano che ISDrama supera i modelli di riferimento su metriche oggettive e soggettive. Le demo e il dataset sono disponibili all'indirizzo https://aaronz345.github.io/ISDramaDemo.
English
Multimodal immersive spatial drama generation focuses on creating continuous
multi-speaker binaural speech with dramatic prosody based on multimodal
prompts, with potential applications in AR, VR, and others. This task requires
simultaneous modeling of spatial information and dramatic prosody based on
multimodal inputs, with high data collection costs. To the best of our
knowledge, our work is the first attempt to address these challenges. We
construct MRSDrama, the first multimodal recorded spatial drama dataset,
containing binaural drama audios, scripts, videos, geometric poses, and textual
prompts. Then, we propose ISDrama, the first immersive spatial drama generation
model through multimodal prompting. ISDrama comprises these primary components:
1) Multimodal Pose Encoder, based on contrastive learning, considering the
Doppler effect caused by moving speakers to extract unified pose information
from multimodal prompts. 2) Immersive Drama Transformer, a flow-based
mamba-transformer model that generates high-quality drama, incorporating
Drama-MOE to select proper experts for enhanced prosody and pose control. We
also design a context-consistent classifier-free guidance strategy to
coherently generate complete drama. Experimental results show that ISDrama
outperforms baseline models on objective and subjective metrics. The demos and
dataset are available at https://aaronz345.github.io/ISDramaDemo.Summary
AI-Generated Summary