SoloAudio: Extracción de Sonido Objetivo con Audio Orientado al Lenguaje Transformador de Difusión

Resumen

En este artículo, presentamos SoloAudio, un novedoso modelo generativo basado en difusión para la extracción de sonidos objetivo (TSE, por sus siglas en inglés). Nuestro enfoque entrena modelos de difusión latente en audio, reemplazando la estructura U-Net anterior con un Transformador conectado por saltos que opera en características latentes. SoloAudio admite tanto la TSE orientada al audio como la orientada al lenguaje al utilizar un modelo CLAP como extractor de características para los sonidos objetivo. Además, SoloAudio aprovecha audio sintético generado por modelos de texto a audio de última generación para el entrenamiento, demostrando una fuerte generalización a datos fuera del dominio y eventos de sonido no vistos. Evaluamos este enfoque en el conjunto de datos de mezcla FSD Kaggle 2018 y en datos reales de AudioSet, donde SoloAudio logra resultados de vanguardia tanto en datos dentro como fuera del dominio, y exhibe impresionantes capacidades de cero disparos y de pocos disparos. Se ha publicado el código fuente y demos.

English

In this paper, we introduce SoloAudio, a novel diffusion-based generative model for target sound extraction (TSE). Our approach trains latent diffusion models on audio, replacing the previous U-Net backbone with a skip-connected Transformer that operates on latent features. SoloAudio supports both audio-oriented and language-oriented TSE by utilizing a CLAP model as the feature extractor for target sounds. Furthermore, SoloAudio leverages synthetic audio generated by state-of-the-art text-to-audio models for training, demonstrating strong generalization to out-of-domain data and unseen sound events. We evaluate this approach on the FSD Kaggle 2018 mixture dataset and real data from AudioSet, where SoloAudio achieves the state-of-the-art results on both in-domain and out-of-domain data, and exhibits impressive zero-shot and few-shot capabilities. Source code and demos are released.