ISDrama : Génération immersive de drames spatiaux par incitation multimodale
ISDrama: Immersive Spatial Drama Generation through Multimodal Prompting
April 29, 2025
Auteurs: Yu Zhang, Wenxiang Guo, Changhao Pan, Zhiyuan Zhu, Tao Jin, Zhou Zhao
cs.AI
Résumé
La génération de drame spatial immersif multimodal se concentre sur la création d'un discours binaural continu à plusieurs locuteurs avec une prosodie dramatique basée sur des invites multimodales, avec des applications potentielles dans la réalité augmentée (AR), la réalité virtuelle (VR) et d'autres domaines. Cette tâche nécessite une modélisation simultanée des informations spatiales et de la prosodie dramatique à partir d'entrées multimodales, avec des coûts élevés de collecte de données. À notre connaissance, notre travail est la première tentative pour relever ces défis. Nous construisons MRSDrama, le premier ensemble de données de drame spatial enregistré multimodal, contenant des audios dramatiques binauraux, des scripts, des vidéos, des poses géométriques et des invites textuelles. Ensuite, nous proposons ISDrama, le premier modèle de génération de drame spatial immersif via des invites multimodales. ISDrama comprend ces composants principaux : 1) Un encodeur de pose multimodal, basé sur l'apprentissage contrastif, prenant en compte l'effet Doppler causé par les locuteurs en mouvement pour extraire des informations de pose unifiées à partir des invites multimodales. 2) Un transformateur de drame immersif, un modèle de type mamba-transformeur basé sur des flux qui génère un drame de haute qualité, incorporant Drama-MOE pour sélectionner les experts appropriés afin d'améliorer la prosodie et le contrôle de la pose. Nous concevons également une stratégie de guidage sans classificateur cohérente avec le contexte pour générer de manière cohérente un drame complet. Les résultats expérimentaux montrent qu'ISDrama surpasse les modèles de référence sur les mesures objectives et subjectives. Les démos et l'ensemble de données sont disponibles à l'adresse https://aaronz345.github.io/ISDramaDemo.
English
Multimodal immersive spatial drama generation focuses on creating continuous
multi-speaker binaural speech with dramatic prosody based on multimodal
prompts, with potential applications in AR, VR, and others. This task requires
simultaneous modeling of spatial information and dramatic prosody based on
multimodal inputs, with high data collection costs. To the best of our
knowledge, our work is the first attempt to address these challenges. We
construct MRSDrama, the first multimodal recorded spatial drama dataset,
containing binaural drama audios, scripts, videos, geometric poses, and textual
prompts. Then, we propose ISDrama, the first immersive spatial drama generation
model through multimodal prompting. ISDrama comprises these primary components:
1) Multimodal Pose Encoder, based on contrastive learning, considering the
Doppler effect caused by moving speakers to extract unified pose information
from multimodal prompts. 2) Immersive Drama Transformer, a flow-based
mamba-transformer model that generates high-quality drama, incorporating
Drama-MOE to select proper experts for enhanced prosody and pose control. We
also design a context-consistent classifier-free guidance strategy to
coherently generate complete drama. Experimental results show that ISDrama
outperforms baseline models on objective and subjective metrics. The demos and
dataset are available at https://aaronz345.github.io/ISDramaDemo.Summary
AI-Generated Summary