ChatPaper.aiChatPaper

SEE-2-SOUND: 제로샷 공간 환경 대 공간 사운드

SEE-2-SOUND: Zero-Shot Spatial Environment-to-Spatial Sound

June 6, 2024
저자: Rishit Dagli, Shivesh Prakash, Robert Wu, Houman Khosravani
cs.AI

초록

결합된 시각 및 청각 감각 경험을 생성하는 것은 몰입형 콘텐츠 소비에 있어 매우 중요합니다. 최근 신경망 생성 모델의 발전으로 이미지, 텍스트, 음성, 비디오 등 다양한 모달리티에서 고해상도 콘텐츠를 생성할 수 있게 되었습니다. 그러나 이러한 성과에도 불구하고, 생성된 시각적 콘텐츠를 보완할 수 있는 고품질의 공간 오디오를 생성하는 데는 여전히 상당한 격차가 존재합니다. 더욱이, 현재의 오디오 생성 모델은 자연스러운 오디오나 음성, 음악을 생성하는 데는 뛰어나지만, 몰입형 경험에 필요한 공간 오디오 신호를 통합하는 데는 부족함이 있습니다. 본 연구에서는 이 문제를 해결하기 위해 SEE-2-SOUND라는 제로샷 접근 방식을 소개합니다. 이 접근 방식은 작업을 (1) 시각적 관심 영역 식별, (2) 이 요소들을 3D 공간에 위치시키기, (3) 각각에 대해 모노 오디오 생성, (4) 이를 공간 오디오로 통합하는 단계로 분해합니다. 우리의 프레임워크를 사용하여, 인터넷에서 얻은 고품질 비디오, 이미지, 동적 이미지뿐만 아니라 학습 기반 접근법으로 생성된 미디어에 대한 공간 오디오 생성에서 설득력 있는 결과를 보여줍니다.
English
Generating combined visual and auditory sensory experiences is critical for the consumption of immersive content. Recent advances in neural generative models have enabled the creation of high-resolution content across multiple modalities such as images, text, speech, and videos. Despite these successes, there remains a significant gap in the generation of high-quality spatial audio that complements generated visual content. Furthermore, current audio generation models excel in either generating natural audio or speech or music but fall short in integrating spatial audio cues necessary for immersive experiences. In this work, we introduce SEE-2-SOUND, a zero-shot approach that decomposes the task into (1) identifying visual regions of interest; (2) locating these elements in 3D space; (3) generating mono-audio for each; and (4) integrating them into spatial audio. Using our framework, we demonstrate compelling results for generating spatial audio for high-quality videos, images, and dynamic images from the internet, as well as media generated by learned approaches.

Summary

AI-Generated Summary

PDF160December 8, 2024