ChatPaper.aiChatPaper

SAM 오디오: 오디오에서 무엇이든 분할하기

SAM Audio: Segment Anything in Audio

December 19, 2025
저자: Bowen Shi, Andros Tjandra, John Hoffman, Helin Wang, Yi-Chiao Wu, Luya Gao, Julius Richter, Matt Le, Apoorv Vyas, Sanyuan Chen, Christoph Feichtenhofer, Piotr Dollár, Wei-Ning Hsu, Ann Lee
cs.AI

초록

일반 오디오 소스 분리는 사운드를 인지하고 추론할 수 있는 멀티모달 AI 시스템의 핵심 능력입니다. 최근 몇 년간 상당한 진전이 있었음에도 불구하고, 기존 분리 모델들은 음성이나 음악과 같은 고정된 범주를 위한 도메인 특화형이거나, 텍스트와 같은 단일 프롬프트 방식만 지원하여 제어 가능성이 제한적입니다. 본 연구에서는 단일 프레임워크 내에서 텍스트, 시각, 시간 범위 프롬프팅을 통합한 일반 오디오 분리 기반 모델인 SAM 오디오를 제안합니다. 디퓨전 트랜스포머 아키텍처를 기반으로 구축된 SAM 오디오는 음성, 음악, 일반 사운드를 아우르는 대규모 오디오 데이터에 대해 플로우 매칭을 통해 훈련되었으며, 언어, 시각적 마스크 또는 시간 범위로 설명된 대상 소스를 유연하게 분리할 수 있습니다. 본 모델은 일반 사운드, 음성, 음악, 악기 분리 등 다양한 벤치마크에서 실제 환경 및 전문 제작 오디오 모두에서 최첨단 성능을 달성하여 기존의 범용 및 특화 시스템을 크게 능가합니다. 더 나아가, 인간이 레이블을 지정한 멀티모달 프롬프트가 포함된 새로운 실제 분리 벤치마크와 인간의 판단과 강한 상관관계를 보이는 참조 없는 평가 모델을 도입합니다.
English
General audio source separation is a key capability for multimodal AI systems that can perceive and reason about sound. Despite substantial progress in recent years, existing separation models are either domain-specific, designed for fixed categories such as speech or music, or limited in controllability, supporting only a single prompting modality such as text. In this work, we present SAM Audio, a foundation model for general audio separation that unifies text, visual, and temporal span prompting within a single framework. Built on a diffusion transformer architecture, SAM Audio is trained with flow matching on large-scale audio data spanning speech, music, and general sounds, and can flexibly separate target sources described by language, visual masks, or temporal spans. The model achieves state-of-the-art performance across a diverse suite of benchmarks, including general sound, speech, music, and musical instrument separation in both in-the-wild and professionally produced audios, substantially outperforming prior general-purpose and specialized systems. Furthermore, we introduce a new real-world separation benchmark with human-labeled multimodal prompts and a reference-free evaluation model that correlates strongly with human judgment.
PDF100December 25, 2025