SoloAudio: Extracción de Sonido Objetivo con Audio Orientado al Lenguaje Transformador de Difusión
SoloAudio: Target Sound Extraction with Language-oriented Audio Diffusion Transformer
September 12, 2024
Autores: Helin Wang, Jiarui Hai, Yen-Ju Lu, Karan Thakkar, Mounya Elhilali, Najim Dehak
cs.AI
Resumen
En este artículo, presentamos SoloAudio, un novedoso modelo generativo basado en difusión para la extracción de sonidos objetivo (TSE, por sus siglas en inglés). Nuestro enfoque entrena modelos de difusión latente en audio, reemplazando la estructura U-Net anterior con un Transformador conectado por saltos que opera en características latentes. SoloAudio admite tanto la TSE orientada al audio como la orientada al lenguaje al utilizar un modelo CLAP como extractor de características para los sonidos objetivo. Además, SoloAudio aprovecha audio sintético generado por modelos de texto a audio de última generación para el entrenamiento, demostrando una fuerte generalización a datos fuera del dominio y eventos de sonido no vistos. Evaluamos este enfoque en el conjunto de datos de mezcla FSD Kaggle 2018 y en datos reales de AudioSet, donde SoloAudio logra resultados de vanguardia tanto en datos dentro como fuera del dominio, y exhibe impresionantes capacidades de cero disparos y de pocos disparos. Se ha publicado el código fuente y demos.
English
In this paper, we introduce SoloAudio, a novel diffusion-based generative
model for target sound extraction (TSE). Our approach trains latent diffusion
models on audio, replacing the previous U-Net backbone with a skip-connected
Transformer that operates on latent features. SoloAudio supports both
audio-oriented and language-oriented TSE by utilizing a CLAP model as the
feature extractor for target sounds. Furthermore, SoloAudio leverages synthetic
audio generated by state-of-the-art text-to-audio models for training,
demonstrating strong generalization to out-of-domain data and unseen sound
events. We evaluate this approach on the FSD Kaggle 2018 mixture dataset and
real data from AudioSet, where SoloAudio achieves the state-of-the-art results
on both in-domain and out-of-domain data, and exhibits impressive zero-shot and
few-shot capabilities. Source code and demos are released.Summary
AI-Generated Summary