ChatPaper.aiChatPaper

SAM Audio : Segmenter n'importe quoi dans l'audio

SAM Audio: Segment Anything in Audio

December 19, 2025
papers.authors: Bowen Shi, Andros Tjandra, John Hoffman, Helin Wang, Yi-Chiao Wu, Luya Gao, Julius Richter, Matt Le, Apoorv Vyas, Sanyuan Chen, Christoph Feichtenhofer, Piotr Dollár, Wei-Ning Hsu, Ann Lee
cs.AI

papers.abstract

La séparation générale de sources audio est une capacité clé pour les systèmes d'IA multimodaux capables de percevoir et de raisonner sur le son. Malgré des progrès substantiels ces dernières années, les modèles de séparation existants sont soit spécifiques à un domaine, conçus pour des catégories fixes comme la parole ou la musique, soit limités en termes de contrôlabilité, ne supportant qu'une seule modalité d'invite telle que le texte. Dans ce travail, nous présentons SAM Audio, un modèle fondateur pour la séparation audio générale qui unifie l'invite textuelle, visuelle et temporelle au sein d'un même cadre. Construit sur une architecture de transformateur à diffusion, SAM Audio est entraîné par appariement de flux sur de vastes données audio couvrant la parole, la musique et les sons généraux, et peut séparer flexiblement les sources cibles décrites par le langage, des masques visuels ou des intervalles temporels. Le modèle atteint des performances de pointe sur un ensemble diversifié de benchmarks, incluant la séparation de sons généraux, de parole, de musique et d'instruments de musique, que ce soit dans des audios issus de conditions réelles ou de productions professionnelles, surpassant substantiellement les systèmes spécialisés et polyvalents antérieurs. De plus, nous introduisons un nouveau benchmark de séparation en conditions réelles avec des invites multimodales étiquetées manuellement et un modèle d'évaluation sans référence qui corrèle fortement avec le jugement humain.
English
General audio source separation is a key capability for multimodal AI systems that can perceive and reason about sound. Despite substantial progress in recent years, existing separation models are either domain-specific, designed for fixed categories such as speech or music, or limited in controllability, supporting only a single prompting modality such as text. In this work, we present SAM Audio, a foundation model for general audio separation that unifies text, visual, and temporal span prompting within a single framework. Built on a diffusion transformer architecture, SAM Audio is trained with flow matching on large-scale audio data spanning speech, music, and general sounds, and can flexibly separate target sources described by language, visual masks, or temporal spans. The model achieves state-of-the-art performance across a diverse suite of benchmarks, including general sound, speech, music, and musical instrument separation in both in-the-wild and professionally produced audios, substantially outperforming prior general-purpose and specialized systems. Furthermore, we introduce a new real-world separation benchmark with human-labeled multimodal prompts and a reference-free evaluation model that correlates strongly with human judgment.
PDF100December 25, 2025