SAM Audio: Сегментация всего в аудио
SAM Audio: Segment Anything in Audio
December 19, 2025
Авторы: Bowen Shi, Andros Tjandra, John Hoffman, Helin Wang, Yi-Chiao Wu, Luya Gao, Julius Richter, Matt Le, Apoorv Vyas, Sanyuan Chen, Christoph Feichtenhofer, Piotr Dollár, Wei-Ning Hsu, Ann Lee
cs.AI
Аннотация
Разделение общих аудиоисточников является ключевой функцией для мультимодальных систем искусственного интеллекта, способных воспринимать и анализировать звук. Несмотря на значительный прогресс последних лет, существующие модели разделения либо узкоспециализированы, разработаны для фиксированных категорий, таких как речь или музыка, либо ограничены в управляемости, поддерживая только один способ интерактивного управления, например, текстовые запросы. В данной работе мы представляем SAM Audio — фоновую модель для общего разделения аудио, которая объединяет текстовые, визуальные и временные подсказки в единой архитектуре. Построенная на основе диффузионной трансформерной архитектуры, SAM Audio обучается с помощью сопоставления потоков на крупномасштабных аудиоданных, охватывающих речь, музыку и общие звуки, и может гибко выделять целевые источники, описанные языком, визуальными масками или временными интервалами. Модель демонстрирует наилучшие результаты в разнообразных тестах, включая разделение общих звуков, речи, музыки и музыкальных инструментов как в реальных записях, так и в профессионально обработанных аудиодорожках, существенно превосходя предыдущие универсальные и специализированные системы. Кроме того, мы представляем новый эталонный тест разделения в реальных условиях с мультимодальными подсказками, размеченными человеком, и моделью оценки без эталонов, которая сильно коррелирует с человеческим суждением.
English
General audio source separation is a key capability for multimodal AI systems that can perceive and reason about sound. Despite substantial progress in recent years, existing separation models are either domain-specific, designed for fixed categories such as speech or music, or limited in controllability, supporting only a single prompting modality such as text. In this work, we present SAM Audio, a foundation model for general audio separation that unifies text, visual, and temporal span prompting within a single framework. Built on a diffusion transformer architecture, SAM Audio is trained with flow matching on large-scale audio data spanning speech, music, and general sounds, and can flexibly separate target sources described by language, visual masks, or temporal spans. The model achieves state-of-the-art performance across a diverse suite of benchmarks, including general sound, speech, music, and musical instrument separation in both in-the-wild and professionally produced audios, substantially outperforming prior general-purpose and specialized systems. Furthermore, we introduce a new real-world separation benchmark with human-labeled multimodal prompts and a reference-free evaluation model that correlates strongly with human judgment.