ChatPaper.aiChatPaper

SAM Audio: Segmentar Cualquier Elemento en Audio

SAM Audio: Segment Anything in Audio

December 19, 2025
Autores: Bowen Shi, Andros Tjandra, John Hoffman, Helin Wang, Yi-Chiao Wu, Luya Gao, Julius Richter, Matt Le, Apoorv Vyas, Sanyuan Chen, Christoph Feichtenhofer, Piotr Dollár, Wei-Ning Hsu, Ann Lee
cs.AI

Resumen

La separación general de fuentes de audio es una capacidad clave para los sistemas de IA multimodal que pueden percibir y razonar sobre el sonido. A pesar de los avances sustanciales en los últimos años, los modelos de separación existentes son específicos de un dominio, diseñados para categorías fijas como voz o música, o tienen una capacidad de control limitada, ya que solo admiten una única modalidad de indicación, como el texto. En este trabajo, presentamos SAM Audio, un modelo de base para la separación general de audio que unifica la indicación por texto, por máscaras visuales y por intervalos temporales dentro de un único marco. Construido sobre una arquitectura de transformador de difusión, SAM Audio se entrena con correspondencia de flujos en datos de audio a gran escala que abarcan voz, música y sonidos generales, y puede separar de manera flexible las fuentes objetivo descritas por lenguaje, máscaras visuales o intervalos temporales. El modelo logra un rendimiento de vanguardia en un conjunto diverso de puntos de referencia, incluyendo la separación de sonidos generales, voz, música e instrumentos musicales, tanto en audios de entornos naturales como profesionalmente producidos, superando sustancialmente a los sistemas especializados y de propósito general anteriores. Además, presentamos un nuevo punto de referencia de separación del mundo real con indicaciones multimodales etiquetadas por humanos y un modelo de evaluación sin referencia que se correlaciona fuertemente con el criterio humano.
English
General audio source separation is a key capability for multimodal AI systems that can perceive and reason about sound. Despite substantial progress in recent years, existing separation models are either domain-specific, designed for fixed categories such as speech or music, or limited in controllability, supporting only a single prompting modality such as text. In this work, we present SAM Audio, a foundation model for general audio separation that unifies text, visual, and temporal span prompting within a single framework. Built on a diffusion transformer architecture, SAM Audio is trained with flow matching on large-scale audio data spanning speech, music, and general sounds, and can flexibly separate target sources described by language, visual masks, or temporal spans. The model achieves state-of-the-art performance across a diverse suite of benchmarks, including general sound, speech, music, and musical instrument separation in both in-the-wild and professionally produced audios, substantially outperforming prior general-purpose and specialized systems. Furthermore, we introduce a new real-world separation benchmark with human-labeled multimodal prompts and a reference-free evaluation model that correlates strongly with human judgment.
PDF100December 25, 2025