ChatPaper.aiChatPaper

ISDrama: Immersive räumliche Dramagenerierung durch multimodales Prompting

ISDrama: Immersive Spatial Drama Generation through Multimodal Prompting

April 29, 2025
Autoren: Yu Zhang, Wenxiang Guo, Changhao Pan, Zhiyuan Zhu, Tao Jin, Zhou Zhao
cs.AI

Zusammenfassung

Die Erzeugung von multimodalem immersivem Raumdrama konzentriert sich auf die Erstellung von kontinuierlicher binauraler Mehrsprecher-Sprache mit dramatischer Prosodie basierend auf multimodalen Eingaben, mit potenziellen Anwendungen in AR, VR und anderen Bereichen. Diese Aufgabe erfordert die gleichzeitige Modellierung von räumlichen Informationen und dramatischer Prosodie basierend auf multimodalen Eingaben, was mit hohen Datenerfassungskosten verbunden ist. Nach unserem besten Wissen ist unsere Arbeit der erste Versuch, diese Herausforderungen zu bewältigen. Wir erstellen MRSDrama, den ersten multimodalen aufgezeichneten Raumdrama-Datensatz, der binaurale Drama-Audios, Skripte, Videos, geometrische Posen und textuelle Eingaben enthält. Anschließend schlagen wir ISDrama vor, das erste Modell zur Erzeugung von immersivem Raumdrama durch multimodale Eingaben. ISDrama besteht aus diesen Hauptkomponenten: 1) Multimodaler Pose-Encoder, basierend auf kontrastivem Lernen, der den Doppler-Effekt durch bewegte Sprecher berücksichtigt, um einheitliche Pose-Informationen aus multimodalen Eingaben zu extrahieren. 2) Immersiver Drama-Transformer, ein flow-basiertes Mamba-Transformer-Modell, das hochwertiges Drama erzeugt und Drama-MOE integriert, um geeignete Experten für verbesserte Prosodie und Posesteuerung auszuwählen. Wir entwerfen auch eine kontextkonsistente, klassifikatorfreie Leitstrategie, um kohärent vollständiges Drama zu erzeugen. Experimentelle Ergebnisse zeigen, dass ISDrama Baseline-Modelle in objektiven und subjektiven Metriken übertrifft. Die Demos und der Datensatz sind unter https://aaronz345.github.io/ISDramaDemo verfügbar.
English
Multimodal immersive spatial drama generation focuses on creating continuous multi-speaker binaural speech with dramatic prosody based on multimodal prompts, with potential applications in AR, VR, and others. This task requires simultaneous modeling of spatial information and dramatic prosody based on multimodal inputs, with high data collection costs. To the best of our knowledge, our work is the first attempt to address these challenges. We construct MRSDrama, the first multimodal recorded spatial drama dataset, containing binaural drama audios, scripts, videos, geometric poses, and textual prompts. Then, we propose ISDrama, the first immersive spatial drama generation model through multimodal prompting. ISDrama comprises these primary components: 1) Multimodal Pose Encoder, based on contrastive learning, considering the Doppler effect caused by moving speakers to extract unified pose information from multimodal prompts. 2) Immersive Drama Transformer, a flow-based mamba-transformer model that generates high-quality drama, incorporating Drama-MOE to select proper experts for enhanced prosody and pose control. We also design a context-consistent classifier-free guidance strategy to coherently generate complete drama. Experimental results show that ISDrama outperforms baseline models on objective and subjective metrics. The demos and dataset are available at https://aaronz345.github.io/ISDramaDemo.

Summary

AI-Generated Summary

PDF71April 30, 2025