ChatPaper.aiChatPaper

SAM Audio: Segmenteren van Alles in Audio

SAM Audio: Segment Anything in Audio

December 19, 2025
Auteurs: Bowen Shi, Andros Tjandra, John Hoffman, Helin Wang, Yi-Chiao Wu, Luya Gao, Julius Richter, Matt Le, Apoorv Vyas, Sanyuan Chen, Christoph Feichtenhofer, Piotr Dollár, Wei-Ning Hsu, Ann Lee
cs.AI

Samenvatting

Algemene audiobronscheiding is een essentiële capaciteit voor multimodale AI-systemen die geluid kunnen waarnemen en interpreteren. Ondanks aanzienlijke vooruitgang in recente jaren zijn bestaande scheidingsmodellen ofwel domeinspecifiek, ontworpen voor vaste categorieën zoals spraak of muziek, of beperkt in aanstuurbaarheid, waarbij ze slechts één promptmodaliteit zoals tekst ondersteunen. In dit werk presenteren we SAM Audio, een foundationmodel voor algemene audiobronscheiding dat tekstuele, visuele en temporele prompting verenigt binnen een enkel raamwerk. Gebouwd op een diffusie-transformerarchitectuur wordt SAM Audio getraind met flow matching op grootschalige audiogegevens die spraak, muziek en algemene geluiden omvatten, en kan het flexibel doelbronnen scheiden die worden beschreven door taal, visuele maskers of temporele intervallen. Het model behaalt state-of-the-art prestaties op een diverse reeks benchmarks, waaronder scheiding van algemene geluiden, spraak, muziek en muziekinstrumenten in zowel alledaagse als professioneel geproduceerde audio, en overtreft eerdere algemene en gespecialiseerde systemen aanzienlijk. Verder introduceren we een nieuwe real-world scheidingsbenchmark met door mensen gelabelde multimodale prompts en een referentievrij evaluatiemodel dat sterk correleert met menselijke beoordeling.
English
General audio source separation is a key capability for multimodal AI systems that can perceive and reason about sound. Despite substantial progress in recent years, existing separation models are either domain-specific, designed for fixed categories such as speech or music, or limited in controllability, supporting only a single prompting modality such as text. In this work, we present SAM Audio, a foundation model for general audio separation that unifies text, visual, and temporal span prompting within a single framework. Built on a diffusion transformer architecture, SAM Audio is trained with flow matching on large-scale audio data spanning speech, music, and general sounds, and can flexibly separate target sources described by language, visual masks, or temporal spans. The model achieves state-of-the-art performance across a diverse suite of benchmarks, including general sound, speech, music, and musical instrument separation in both in-the-wild and professionally produced audios, substantially outperforming prior general-purpose and specialized systems. Furthermore, we introduce a new real-world separation benchmark with human-labeled multimodal prompts and a reference-free evaluation model that correlates strongly with human judgment.
PDF100December 25, 2025