SEE-2-SOUND: ゼロショット空間環境から空間音響への変換
SEE-2-SOUND: Zero-Shot Spatial Environment-to-Spatial Sound
June 6, 2024
著者: Rishit Dagli, Shivesh Prakash, Robert Wu, Houman Khosravani
cs.AI
要旨
没入型コンテンツの体験において、視覚と聴覚を組み合わせた感覚体験を生成することは極めて重要です。近年のニューラル生成モデルの進歩により、画像、テキスト、音声、動画といった複数のモダリティにわたる高解像度コンテンツの作成が可能になりました。しかしながら、生成された視覚コンテンツを補完する高品質な空間オーディオの生成には、依然として大きなギャップが存在します。さらに、現在のオーディオ生成モデルは、自然な音声や音楽の生成において優れているものの、没入体験に必要な空間オーディオの手がかりを統合する点では不十分です。本研究では、SEE-2-SOUNDというゼロショットアプローチを提案します。このアプローチでは、タスクを(1)視覚的な関心領域の特定、(2)3D空間内でのこれらの要素の位置特定、(3)各要素に対するモノラルオーディオの生成、(4)それらを空間オーディオに統合する、という4つのステップに分解します。本フレームワークを用いることで、インターネット上の高品質な動画、画像、動的画像、および学習ベースのアプローチで生成されたメディアに対する空間オーディオの生成において、説得力のある結果を示します。
English
Generating combined visual and auditory sensory experiences is critical for
the consumption of immersive content. Recent advances in neural generative
models have enabled the creation of high-resolution content across multiple
modalities such as images, text, speech, and videos. Despite these successes,
there remains a significant gap in the generation of high-quality spatial audio
that complements generated visual content. Furthermore, current audio
generation models excel in either generating natural audio or speech or music
but fall short in integrating spatial audio cues necessary for immersive
experiences. In this work, we introduce SEE-2-SOUND, a zero-shot approach that
decomposes the task into (1) identifying visual regions of interest; (2)
locating these elements in 3D space; (3) generating mono-audio for each; and
(4) integrating them into spatial audio. Using our framework, we demonstrate
compelling results for generating spatial audio for high-quality videos,
images, and dynamic images from the internet, as well as media generated by
learned approaches.Summary
AI-Generated Summary