SoloAudio: Estrazione del Suono Obiettivo con Diffusione del Trasformatore Audio Orientato al Linguaggio

Abstract

In questo articolo, presentiamo SoloAudio, un nuovo modello generativo basato sulla diffusione per l'estrazione del suono target (TSE). Il nostro approccio addestra modelli di diffusione latenti sull'audio, sostituendo la precedente struttura U-Net con un Transformer connesso tramite skip che opera sulle caratteristiche latenti. SoloAudio supporta sia l'estrazione del suono orientata all'audio che all'linguaggio, utilizzando un modello CLAP come estrattore di caratteristiche per i suoni target. Inoltre, SoloAudio sfrutta l'audio sintetico generato dai modelli di testo-ad-audio all'avanguardia per l'addestramento, dimostrando una forte generalizzazione ai dati fuori dominio ed eventi sonori non visti. Valutiamo questo approccio sul dataset misto FSD Kaggle 2018 e sui dati reali di AudioSet, dove SoloAudio raggiunge i risultati di ultima generazione sia sui dati in-dominio che fuori-dominio, e mostra impressionanti capacità zero-shot e few-shot. Il codice sorgente e le demo sono stati rilasciati.

English

In this paper, we introduce SoloAudio, a novel diffusion-based generative model for target sound extraction (TSE). Our approach trains latent diffusion models on audio, replacing the previous U-Net backbone with a skip-connected Transformer that operates on latent features. SoloAudio supports both audio-oriented and language-oriented TSE by utilizing a CLAP model as the feature extractor for target sounds. Furthermore, SoloAudio leverages synthetic audio generated by state-of-the-art text-to-audio models for training, demonstrating strong generalization to out-of-domain data and unseen sound events. We evaluate this approach on the FSD Kaggle 2018 mixture dataset and real data from AudioSet, where SoloAudio achieves the state-of-the-art results on both in-domain and out-of-domain data, and exhibits impressive zero-shot and few-shot capabilities. Source code and demos are released.

SoloAudio: Estrazione del Suono Obiettivo con Diffusione del Trasformatore Audio Orientato al Linguaggio

SoloAudio: Target Sound Extraction with Language-oriented Audio Diffusion Transformer

Abstract

Support