ISDrama: Generación de Drama Espacial Inmersivo mediante Indicaciones Multimodales
ISDrama: Immersive Spatial Drama Generation through Multimodal Prompting
April 29, 2025
Autores: Yu Zhang, Wenxiang Guo, Changhao Pan, Zhiyuan Zhu, Tao Jin, Zhou Zhao
cs.AI
Resumen
La generación de drama espacial inmersivo multimodal se centra en crear discursos binaurales continuos de múltiples hablantes con prosodia dramática basados en indicaciones multimodales, con aplicaciones potenciales en realidad aumentada (AR), realidad virtual (VR) y otros campos. Esta tarea requiere el modelado simultáneo de información espacial y prosodia dramática basado en entradas multimodales, con altos costos de recopilación de datos. Hasta donde sabemos, nuestro trabajo es el primer intento de abordar estos desafíos. Construimos MRSDrama, el primer conjunto de datos de drama espacial grabado multimodal, que contiene audios binaurales de drama, guiones, videos, poses geométricas e indicaciones textuales. Luego, proponemos ISDrama, el primer modelo de generación de drama espacial inmersivo mediante indicaciones multimodales. ISDrama comprende estos componentes principales: 1) Codificador de Poses Multimodal, basado en aprendizaje contrastivo, que considera el efecto Doppler causado por hablantes en movimiento para extraer información unificada de poses a partir de indicaciones multimodales. 2) Transformador de Drama Inmersivo, un modelo basado en flujo y mamba-transformador que genera drama de alta calidad, incorporando Drama-MOE para seleccionar expertos adecuados y mejorar el control de la prosodia y las poses. También diseñamos una estrategia de guía libre de clasificadores consistente con el contexto para generar drama completo de manera coherente. Los resultados experimentales muestran que ISDrama supera a los modelos de referencia en métricas objetivas y subjetivas. Las demostraciones y el conjunto de datos están disponibles en https://aaronz345.github.io/ISDramaDemo.
English
Multimodal immersive spatial drama generation focuses on creating continuous
multi-speaker binaural speech with dramatic prosody based on multimodal
prompts, with potential applications in AR, VR, and others. This task requires
simultaneous modeling of spatial information and dramatic prosody based on
multimodal inputs, with high data collection costs. To the best of our
knowledge, our work is the first attempt to address these challenges. We
construct MRSDrama, the first multimodal recorded spatial drama dataset,
containing binaural drama audios, scripts, videos, geometric poses, and textual
prompts. Then, we propose ISDrama, the first immersive spatial drama generation
model through multimodal prompting. ISDrama comprises these primary components:
1) Multimodal Pose Encoder, based on contrastive learning, considering the
Doppler effect caused by moving speakers to extract unified pose information
from multimodal prompts. 2) Immersive Drama Transformer, a flow-based
mamba-transformer model that generates high-quality drama, incorporating
Drama-MOE to select proper experts for enhanced prosody and pose control. We
also design a context-consistent classifier-free guidance strategy to
coherently generate complete drama. Experimental results show that ISDrama
outperforms baseline models on objective and subjective metrics. The demos and
dataset are available at https://aaronz345.github.io/ISDramaDemo.Summary
AI-Generated Summary