ISDrama: Geração de Drama Espacial Imersivo por meio de Prompting Multimodal
ISDrama: Immersive Spatial Drama Generation through Multimodal Prompting
April 29, 2025
Autores: Yu Zhang, Wenxiang Guo, Changhao Pan, Zhiyuan Zhu, Tao Jin, Zhou Zhao
cs.AI
Resumo
A geração de drama espacial imersivo multimodal concentra-se na criação de fala binaural contínua com múltiplos falantes e prosódia dramática baseada em prompts multimodais, com potenciais aplicações em RA, RV e outras áreas. Essa tarefa requer a modelagem simultânea de informações espaciais e prosódia dramática com base em entradas multimodais, envolvendo altos custos de coleta de dados. Até onde sabemos, nosso trabalho é a primeira tentativa de abordar esses desafios. Construímos o MRSDrama, o primeiro conjunto de dados de drama espacial gravado multimodal, contendo áudios binaurais de drama, scripts, vídeos, poses geométricas e prompts textuais. Em seguida, propomos o ISDrama, o primeiro modelo de geração de drama espacial imersivo por meio de prompts multimodais. O ISDrama compreende os seguintes componentes principais: 1) Codificador de Pose Multimodal, baseado em aprendizado contrastivo, que considera o efeito Doppler causado por falantes em movimento para extrair informações unificadas de pose dos prompts multimodais. 2) Transformador de Drama Imersivo, um modelo mamba-transformador baseado em fluxo que gera drama de alta qualidade, incorporando o Drama-MOE para selecionar especialistas adequados para melhorar o controle de prosódia e pose. Também projetamos uma estratégia de orientação livre de classificador com consistência contextual para gerar drama completo de forma coerente. Os resultados experimentais mostram que o ISDrama supera os modelos de referência em métricas objetivas e subjetivas. As demonstrações e o conjunto de dados estão disponíveis em https://aaronz345.github.io/ISDramaDemo.
English
Multimodal immersive spatial drama generation focuses on creating continuous
multi-speaker binaural speech with dramatic prosody based on multimodal
prompts, with potential applications in AR, VR, and others. This task requires
simultaneous modeling of spatial information and dramatic prosody based on
multimodal inputs, with high data collection costs. To the best of our
knowledge, our work is the first attempt to address these challenges. We
construct MRSDrama, the first multimodal recorded spatial drama dataset,
containing binaural drama audios, scripts, videos, geometric poses, and textual
prompts. Then, we propose ISDrama, the first immersive spatial drama generation
model through multimodal prompting. ISDrama comprises these primary components:
1) Multimodal Pose Encoder, based on contrastive learning, considering the
Doppler effect caused by moving speakers to extract unified pose information
from multimodal prompts. 2) Immersive Drama Transformer, a flow-based
mamba-transformer model that generates high-quality drama, incorporating
Drama-MOE to select proper experts for enhanced prosody and pose control. We
also design a context-consistent classifier-free guidance strategy to
coherently generate complete drama. Experimental results show that ISDrama
outperforms baseline models on objective and subjective metrics. The demos and
dataset are available at https://aaronz345.github.io/ISDramaDemo.Summary
AI-Generated Summary