SAM Audio: Segmentare Qualsiasi Cosa nell'Audio
SAM Audio: Segment Anything in Audio
December 19, 2025
Autori: Bowen Shi, Andros Tjandra, John Hoffman, Helin Wang, Yi-Chiao Wu, Luya Gao, Julius Richter, Matt Le, Apoorv Vyas, Sanyuan Chen, Christoph Feichtenhofer, Piotr Dollár, Wei-Ning Hsu, Ann Lee
cs.AI
Abstract
La separazione generale delle sorgenti audio è una capacità fondamentale per i sistemi di intelligenza artificiale multimodale in grado di percepire e ragionare sui suoni. Nonostante i progressi sostanziali degli ultimi anni, i modelli di separazione esistenti sono specifici per dominio, progettati per categorie fisse come la voce o la musica, oppure limitati nella controllabilità, supportando solo una singola modalità di prompt come il testo. In questo lavoro, presentiamo SAM Audio, un modello fondazionale per la separazione audio generale che unifica il prompt testuale, visivo e di intervallo temporale all'interno di un unico framework. Basato su un'architettura di tipo diffusion transformer, SAM Audio è addestrato con il flow matching su vasti dataset audio che comprendono parlato, musica e suoni generici, ed è in grado di separare flessibilmente le sorgenti target descritte tramite linguaggio, maschere visive o intervalli temporali. Il modello raggiunge prestazioni allo stato dell'arte su un'ampia serie di benchmark, inclusa la separazione di suoni generici, parlato, musica e strumenti musicali sia in audio reali che prodotti professionalmente, superando significativamente i sistemi specializzati e a scopo generale precedenti. Inoltre, introduciamo un nuovo benchmark per la separazione nel mondo reale con prompt multimodali etichettati manualmente e un modello di valutazione reference-free che mostra una forte correlazione con il giudizio umano.
English
General audio source separation is a key capability for multimodal AI systems that can perceive and reason about sound. Despite substantial progress in recent years, existing separation models are either domain-specific, designed for fixed categories such as speech or music, or limited in controllability, supporting only a single prompting modality such as text. In this work, we present SAM Audio, a foundation model for general audio separation that unifies text, visual, and temporal span prompting within a single framework. Built on a diffusion transformer architecture, SAM Audio is trained with flow matching on large-scale audio data spanning speech, music, and general sounds, and can flexibly separate target sources described by language, visual masks, or temporal spans. The model achieves state-of-the-art performance across a diverse suite of benchmarks, including general sound, speech, music, and musical instrument separation in both in-the-wild and professionally produced audios, substantially outperforming prior general-purpose and specialized systems. Furthermore, we introduce a new real-world separation benchmark with human-labeled multimodal prompts and a reference-free evaluation model that correlates strongly with human judgment.