ChatPaper.aiChatPaper

ISDrama: Генерация иммерсивного пространственного драматического контента с использованием мультимодальных подсказок

ISDrama: Immersive Spatial Drama Generation through Multimodal Prompting

April 29, 2025
Авторы: Yu Zhang, Wenxiang Guo, Changhao Pan, Zhiyuan Zhu, Tao Jin, Zhou Zhao
cs.AI

Аннотация

Генерация многомодальной иммерсивной пространственной драмы сосредоточена на создании непрерывной бинауральной речи с участием нескольких говорящих, обладающей драматической просодией, на основе многомодальных подсказок, с потенциальным применением в AR, VR и других областях. Эта задача требует одновременного моделирования пространственной информации и драматической просодии на основе многомодальных входных данных, что сопряжено с высокими затратами на сбор данных. Насколько нам известно, наша работа является первой попыткой решения этих задач. Мы создаем MRSDrama, первый многомодальный набор данных с записанной пространственной драмой, содержащий бинауральные аудиодорожки драмы, сценарии, видео, геометрические позы и текстовые подсказки. Затем мы предлагаем ISDrama, первую модель генерации иммерсивной пространственной драмы с использованием многомодальных подсказок. ISDrama включает следующие основные компоненты: 1) Многомодальный кодировщик поз, основанный на контрастном обучении, учитывающий эффект Доплера, вызванный движением говорящих, для извлечения унифицированной информации о позах из многомодальных подсказок. 2) Иммерсивный трансформер драмы, модель на основе потока и mamba-трансформера, которая генерирует высококачественную драму, включая Drama-MOE для выбора подходящих экспертов для улучшения контроля над просодией и позами. Мы также разработали стратегию контекстно-согласованного классификатор-свободного управления для согласованной генерации полной драмы. Результаты экспериментов показывают, что ISDrama превосходит базовые модели по объективным и субъективным метрикам. Демонстрации и набор данных доступны по адресу https://aaronz345.github.io/ISDramaDemo.
English
Multimodal immersive spatial drama generation focuses on creating continuous multi-speaker binaural speech with dramatic prosody based on multimodal prompts, with potential applications in AR, VR, and others. This task requires simultaneous modeling of spatial information and dramatic prosody based on multimodal inputs, with high data collection costs. To the best of our knowledge, our work is the first attempt to address these challenges. We construct MRSDrama, the first multimodal recorded spatial drama dataset, containing binaural drama audios, scripts, videos, geometric poses, and textual prompts. Then, we propose ISDrama, the first immersive spatial drama generation model through multimodal prompting. ISDrama comprises these primary components: 1) Multimodal Pose Encoder, based on contrastive learning, considering the Doppler effect caused by moving speakers to extract unified pose information from multimodal prompts. 2) Immersive Drama Transformer, a flow-based mamba-transformer model that generates high-quality drama, incorporating Drama-MOE to select proper experts for enhanced prosody and pose control. We also design a context-consistent classifier-free guidance strategy to coherently generate complete drama. Experimental results show that ISDrama outperforms baseline models on objective and subjective metrics. The demos and dataset are available at https://aaronz345.github.io/ISDramaDemo.

Summary

AI-Generated Summary

PDF71April 30, 2025