ChatPaper.aiChatPaper

ビデオオブジェクトセグメンテーション対応音声生成

Video Object Segmentation-Aware Audio Generation

September 30, 2025
著者: Ilpo Viertola, Vladimir Iashin, Esa Rahtu
cs.AI

要旨

既存のマルチモーダル音声生成モデルは、しばしばユーザーによる精密な制御を欠いており、プロフェッショナルなフォーリーワークフローにおける適用性を制限している。特に、これらのモデルはビデオ全体に焦点を当てており、シーン内の特定のオブジェクトを優先するための精密な手法を提供せず、不要な背景音を生成したり、誤ったオブジェクトに焦点を当てたりする。このギャップを埋めるため、我々はビデオオブジェクトセグメンテーションを意識した音声生成という新たなタスクを導入し、音声合成をオブジェクトレベルのセグメンテーションマップに明示的に条件付ける。我々は、視覚的セグメンテーションマスクとビデオおよびテキストの手がかりを活用することで、制御可能な音声生成を実現する新しいマルチモーダル生成モデルであるSAGANetを提案する。このモデルは、ユーザーに音声生成に対する細かい視覚的ローカライズ制御を提供する。このタスクとセグメンテーションを意識したフォーリーのさらなる研究を支援するため、我々はセグメンテーション情報を伴う楽器演奏ビデオのベンチマークデータセットであるSegmented Music Solosを提案する。我々の手法は、現在の最先端の手法を大幅に改善し、制御可能で高忠実度のフォーリー合成の新たな基準を設定する。コード、サンプル、およびSegmented Music Solosはhttps://saganet.notion.siteで利用可能である。
English
Existing multimodal audio generation models often lack precise user control, which limits their applicability in professional Foley workflows. In particular, these models focus on the entire video and do not provide precise methods for prioritizing a specific object within a scene, generating unnecessary background sounds, or focusing on the wrong objects. To address this gap, we introduce the novel task of video object segmentation-aware audio generation, which explicitly conditions sound synthesis on object-level segmentation maps. We present SAGANet, a new multimodal generative model that enables controllable audio generation by leveraging visual segmentation masks along with video and textual cues. Our model provides users with fine-grained and visually localized control over audio generation. To support this task and further research on segmentation-aware Foley, we propose Segmented Music Solos, a benchmark dataset of musical instrument performance videos with segmentation information. Our method demonstrates substantial improvements over current state-of-the-art methods and sets a new standard for controllable, high-fidelity Foley synthesis. Code, samples, and Segmented Music Solos are available at https://saganet.notion.site
PDF11October 1, 2025