AuralSAM2: ピラミッド型音声-視覚特徴プロンプティングを用いたSAM2の聴覚機能の実現
AuralSAM2: Enabling SAM2 Hear Through Pyramid Audio-Visual Feature Prompting
May 14, 2026
著者: Yuyuan Liu, Yuanhong Chen, Chong Wang, Junlin Han, Junde Wu, Can Peng, Jingkun Chen, Yu Tian, Gustavo Carneiro
cs.AI
要旨
Segment Anything Model 2(SAM2)は、ビデオクリップにおけるプロンプト可能なセグメンテーションに対して強い汎化能力を示すが、音声モダリティとの統合は未だ十分に研究されていない。既存の手法は、ファウンデーションモデルを介して音声を視覚プロンプト(例:バウンディングボックス)に変換するか、画像エンコーダにアダプタを挿入して音声-視覚融合を行う。しかし、これらのアプローチは、プロンプト精度の制限や推論オーバーヘッドの増加により、ヒューマン・イン・ザ・ループのシナリオでは不十分である。特に、アダプタベースの手法は、ネットワークを伝搬するにつれて信号が徐々に減衰する音声プロンプト希釈の問題にしばしば悩まされる。本研究では、SAM2のプロンプト可能なセグメンテーション能力を概ね維持しつつ、音声を統合するAuralSAM2を提案する。その中核モジュールであるAuralFuserは、音声特徴と視覚特徴を融合し、疎なプロンプトと密なプロンプトを生成する。音声に導かれ、SAM2の特徴ピラミッド上に構築されたこれらのプロンプトは、聴覚的手がかりを視覚層全体に伝播させ、クロスモーダルな影響を強化する。さらにモダリティを整合させるために、支配的な視覚特徴における聴覚的関連性を強調する音声誘導型コントラスト損失を導入する。本手法は、公開ベンチマークにおいて、プロンプト可能なセグメンテーションの対話的効率に最小限の影響しか与えずに、顕著な精度向上を達成する。コードはhttps://github.com/yyliu01/AuralSAM2で公開している。
English
Segment Anything Model 2 (SAM2) exhibits strong generalisation for promptable segmentation in video clips; however, its integration with the audio modality remains underexplored. Existing approaches either convert audio into visual prompts (e.g., boxes) via foundation models, or inject adapters into the image encoder for audio-visual fusion. Yet both directions fall short in human-in-the-loop scenarios due to limited prompt accuracy and increased inference overhead. In particular, these adapter-based methods often suffer from audio prompt dilution, where the signal gradually weakens as it propagates through the network. In this work, we propose AuralSAM2, which integrates audio into SAM2 while largely preserving its promptable segmentation capability. Its core module, AuralFuser, fuses audio and visual features to generate sparse and dense prompts. Guided by audio and built upon SAM2's feature pyramid, these prompts propagate auditory cues across visual layers, reinforcing cross-modal influence. To further align modalities, we introduce an audio-guided contrastive loss that emphasises auditory relevance in dominant visual features. Our method achieves notable accuracy gains on public benchmarks with only minimal impact on the interactive efficiency of promptable segmentation. Our code is available at https://github.com/yyliu01/AuralSAM2.