ChatPaper.aiChatPaper

ISDrama: 멀티모달 프롬프팅을 통한 몰입형 공간 드라마 생성

ISDrama: Immersive Spatial Drama Generation through Multimodal Prompting

April 29, 2025
저자: Yu Zhang, Wenxiang Guo, Changhao Pan, Zhiyuan Zhu, Tao Jin, Zhou Zhao
cs.AI

초록

다중모드 몰입형 공간 드라마 생성은 다중모드 프롬프트를 기반으로 극적인 운율을 가진 연속적인 다중 화자 이중 청각 음성을 생성하는 데 초점을 맞추며, AR, VR 등 다양한 분야에 적용 가능성을 가지고 있다. 이 작업은 다중모드 입력을 기반으로 공간 정보와 극적인 운율을 동시에 모델링해야 하며, 데이터 수집 비용이 높다. 우리가 아는 한, 본 연구는 이러한 문제를 해결하기 위한 첫 번째 시도이다. 우리는 이중 청각 드라마 오디오, 대본, 비디오, 기하학적 포즈, 텍스트 프롬프트를 포함한 최초의 다중모드 기록 공간 드라마 데이터셋인 MRSDrama를 구축하였다. 그리고 다중모드 프롬프팅을 통해 최초의 몰입형 공간 드라마 생성 모델인 ISDrama를 제안한다. ISDrama는 다음과 같은 주요 구성 요소로 이루어져 있다: 1) 다중모드 포즈 인코더는 이동하는 화자에 의해 발생하는 도플러 효과를 고려하여 다중모드 프롬프트에서 통합된 포즈 정보를 추출하기 위해 대조 학습을 기반으로 한다. 2) 몰입형 드라마 트랜스포머는 흐름 기반 맘바-트랜스포머 모델로, Drama-MOE를 통해 적절한 전문가를 선택하여 향상된 운율과 포즈 제어를 가능하게 한다. 또한, 일관된 문맥을 유지하며 완전한 드라마를 생성하기 위해 컨텍스트 일관성 분류자 없는 지도 전략을 설계하였다. 실험 결과는 ISDrama가 객관적 및 주관적 지표에서 기준 모델을 능가함을 보여준다. 데모와 데이터셋은 https://aaronz345.github.io/ISDramaDemo에서 확인할 수 있다.
English
Multimodal immersive spatial drama generation focuses on creating continuous multi-speaker binaural speech with dramatic prosody based on multimodal prompts, with potential applications in AR, VR, and others. This task requires simultaneous modeling of spatial information and dramatic prosody based on multimodal inputs, with high data collection costs. To the best of our knowledge, our work is the first attempt to address these challenges. We construct MRSDrama, the first multimodal recorded spatial drama dataset, containing binaural drama audios, scripts, videos, geometric poses, and textual prompts. Then, we propose ISDrama, the first immersive spatial drama generation model through multimodal prompting. ISDrama comprises these primary components: 1) Multimodal Pose Encoder, based on contrastive learning, considering the Doppler effect caused by moving speakers to extract unified pose information from multimodal prompts. 2) Immersive Drama Transformer, a flow-based mamba-transformer model that generates high-quality drama, incorporating Drama-MOE to select proper experts for enhanced prosody and pose control. We also design a context-consistent classifier-free guidance strategy to coherently generate complete drama. Experimental results show that ISDrama outperforms baseline models on objective and subjective metrics. The demos and dataset are available at https://aaronz345.github.io/ISDramaDemo.

Summary

AI-Generated Summary

PDF71April 30, 2025