ChatPaper.aiChatPaper

SAM Audio: Segmentieren von allem in Audio

SAM Audio: Segment Anything in Audio

December 19, 2025
papers.authors: Bowen Shi, Andros Tjandra, John Hoffman, Helin Wang, Yi-Chiao Wu, Luya Gao, Julius Richter, Matt Le, Apoorv Vyas, Sanyuan Chen, Christoph Feichtenhofer, Piotr Dollár, Wei-Ning Hsu, Ann Lee
cs.AI

papers.abstract

Die allgemeine Trennung von Audioquellen ist eine Schlüsselfähigkeit für multimodale KI-Systeme, die Geräusche wahrnehmen und interpretieren können. Trotz erheblicher Fortschritte in den letzten Jahren sind bestehende Trennmodelle entweder domänenspezifisch – für feste Kategorien wie Sprache oder Musik konzipiert – oder in ihrer Steuerbarkeit eingeschränkt, da sie nur eine einzige Prompt-Modalität wie Text unterstützen. In dieser Arbeit stellen wir SAM Audio vor, ein Foundation-Modell zur allgemeinen Audiotrennung, das Text-, Bild- und Zeitbereichs-Prompting innerhalb eines einzigen Frameworks vereint. Basierend auf einer Diffusion-Transformer-Architektur wird SAM Audio mit Flow Matching auf umfangreichen Audiodaten trainiert, die Sprache, Musik und allgemeine Geräusche abdecken, und kann Zielquellen flexibel trennen, die durch Sprache, visuelle Masken oder Zeitbereiche beschrieben werden. Das Modell erzielt state-of-the-art Leistungen in einer Vielzahl von Benchmarks, einschließlich der Trennung von allgemeinen Geräuschen, Sprache, Musik und Musikinstrumenten in sowohl Alltags- als auch professionell produzierten Audiodateien, und übertrifft bisherige allgemeine und spezialisierte Systeme erheblich. Darüber hinaus führen wir einen neuen Benchmark für die Trennung von Audiodaten aus der Praxis mit menschlich annotierten multimodalen Prompts sowie ein referenzfreies Evaluierungsmodell ein, das stark mit menschlichen Bewertungen korreliert.
English
General audio source separation is a key capability for multimodal AI systems that can perceive and reason about sound. Despite substantial progress in recent years, existing separation models are either domain-specific, designed for fixed categories such as speech or music, or limited in controllability, supporting only a single prompting modality such as text. In this work, we present SAM Audio, a foundation model for general audio separation that unifies text, visual, and temporal span prompting within a single framework. Built on a diffusion transformer architecture, SAM Audio is trained with flow matching on large-scale audio data spanning speech, music, and general sounds, and can flexibly separate target sources described by language, visual masks, or temporal spans. The model achieves state-of-the-art performance across a diverse suite of benchmarks, including general sound, speech, music, and musical instrument separation in both in-the-wild and professionally produced audios, substantially outperforming prior general-purpose and specialized systems. Furthermore, we introduce a new real-world separation benchmark with human-labeled multimodal prompts and a reference-free evaluation model that correlates strongly with human judgment.
PDF100December 25, 2025