SAM Áudio: Segmentar Qualquer Coisa em Áudio

Resumo

A separação geral de fontes de áudio é uma capacidade fundamental para sistemas de IA multimodal que podem perceber e raciocinar sobre sons. Apesar dos progressos substanciais nos últimos anos, os modelos de separação existentes são específicos de domínio, concebidos para categorias fixas como fala ou música, ou limitados em termos de controlabilidade, suportando apenas uma única modalidade de instrução, como texto. Neste trabalho, apresentamos o SAM Audio, um modelo de base para separação geral de áudio que unifica a instrução por texto, máscaras visuais e intervalos temporais numa única arquitetura. Construído sobre uma arquitetura de transformador de difusão, o SAM Audio é treinado com correspondência de fluxo em dados de áudio em larga escala que abrangem fala, música e sons gerais, e pode separar flexivelmente fontes-alvo descritas por linguagem, máscaras visuais ou intervalos temporais. O modelo atinge um desempenho de ponta num conjunto diversificado de benchmarks, incluindo separação de sons gerais, fala, música e instrumentos musicais, tanto em áudios do mundo real como profissionalmente produzidos, superando substancialmente sistemas anteriores de propósito geral e especializados. Além disso, introduzimos um novo benchmark de separação do mundo real com instruções multimodais rotuladas por humanos e um modelo de avaliação sem referência que se correlaciona fortemente com o julgamento humano.

English

General audio source separation is a key capability for multimodal AI systems that can perceive and reason about sound. Despite substantial progress in recent years, existing separation models are either domain-specific, designed for fixed categories such as speech or music, or limited in controllability, supporting only a single prompting modality such as text. In this work, we present SAM Audio, a foundation model for general audio separation that unifies text, visual, and temporal span prompting within a single framework. Built on a diffusion transformer architecture, SAM Audio is trained with flow matching on large-scale audio data spanning speech, music, and general sounds, and can flexibly separate target sources described by language, visual masks, or temporal spans. The model achieves state-of-the-art performance across a diverse suite of benchmarks, including general sound, speech, music, and musical instrument separation in both in-the-wild and professionally produced audios, substantially outperforming prior general-purpose and specialized systems. Furthermore, we introduce a new real-world separation benchmark with human-labeled multimodal prompts and a reference-free evaluation model that correlates strongly with human judgment.

SAM Áudio: Segmentar Qualquer Coisa em Áudio

SAM Audio: Segment Anything in Audio

Resumo

Support