SAM Audio: 音声におけるセグメンテーションの汎用化
SAM Audio: Segment Anything in Audio
December 19, 2025
著者: Bowen Shi, Andros Tjandra, John Hoffman, Helin Wang, Yi-Chiao Wu, Luya Gao, Julius Richter, Matt Le, Apoorv Vyas, Sanyuan Chen, Christoph Feichtenhofer, Piotr Dollár, Wei-Ning Hsu, Ann Lee
cs.AI
要旨
一般音源分離は、音を認識し推論するマルチモーダルAIシステムの中核的な機能である。近年大きな進展があったものの、既存の分離モデルは、音声や音楽といった固定カテゴリに特化したドメイン固有の設計であるか、あるいはテキストのような単一のプロンプト手法のみをサポートする制御性の限界を有している。本研究では、テキスト、視覚、時間スパンのプロンプトを単一フレームワークに統合した一般音源分離の基盤モデル「SAM Audio」を提案する。拡散トランスフォーマーアーキテクチャを基盤とし、音声・音楽・一般音を含む大規模音声データに対してフローマッチング学習を施したSAM Audioは、言語・視覚マスク・時間スパンによって記述される対象音源を柔軟に分離できる。本モデルは、実世界音声からプロフェッショナル制作音声まで、一般音・音声・音楽・楽器分離を含む多様なベンチマークにおいて最高性能を達成し、従来の汎用システム及び専門システムを大幅に上回る。さらに、人手でラベル付けされたマルチモーダルプロンプトを備えた新たな実世界分離ベンチマークと、人間の判断と強い相関を持つ参照不要評価モデルを導入する。
English
General audio source separation is a key capability for multimodal AI systems that can perceive and reason about sound. Despite substantial progress in recent years, existing separation models are either domain-specific, designed for fixed categories such as speech or music, or limited in controllability, supporting only a single prompting modality such as text. In this work, we present SAM Audio, a foundation model for general audio separation that unifies text, visual, and temporal span prompting within a single framework. Built on a diffusion transformer architecture, SAM Audio is trained with flow matching on large-scale audio data spanning speech, music, and general sounds, and can flexibly separate target sources described by language, visual masks, or temporal spans. The model achieves state-of-the-art performance across a diverse suite of benchmarks, including general sound, speech, music, and musical instrument separation in both in-the-wild and professionally produced audios, substantially outperforming prior general-purpose and specialized systems. Furthermore, we introduce a new real-world separation benchmark with human-labeled multimodal prompts and a reference-free evaluation model that correlates strongly with human judgment.