SoloAudio: Estrazione del Suono Obiettivo con Diffusione del Trasformatore Audio Orientato al Linguaggio
SoloAudio: Target Sound Extraction with Language-oriented Audio Diffusion Transformer
September 12, 2024
Autori: Helin Wang, Jiarui Hai, Yen-Ju Lu, Karan Thakkar, Mounya Elhilali, Najim Dehak
cs.AI
Abstract
In questo articolo, presentiamo SoloAudio, un nuovo modello generativo basato sulla diffusione per l'estrazione del suono target (TSE). Il nostro approccio addestra modelli di diffusione latenti sull'audio, sostituendo la precedente struttura U-Net con un Transformer connesso tramite skip che opera sulle caratteristiche latenti. SoloAudio supporta sia l'estrazione del suono orientata all'audio che all'linguaggio, utilizzando un modello CLAP come estrattore di caratteristiche per i suoni target. Inoltre, SoloAudio sfrutta l'audio sintetico generato dai modelli di testo-ad-audio all'avanguardia per l'addestramento, dimostrando una forte generalizzazione ai dati fuori dominio ed eventi sonori non visti. Valutiamo questo approccio sul dataset misto FSD Kaggle 2018 e sui dati reali di AudioSet, dove SoloAudio raggiunge i risultati di ultima generazione sia sui dati in-dominio che fuori-dominio, e mostra impressionanti capacità zero-shot e few-shot. Il codice sorgente e le demo sono stati rilasciati.
English
In this paper, we introduce SoloAudio, a novel diffusion-based generative
model for target sound extraction (TSE). Our approach trains latent diffusion
models on audio, replacing the previous U-Net backbone with a skip-connected
Transformer that operates on latent features. SoloAudio supports both
audio-oriented and language-oriented TSE by utilizing a CLAP model as the
feature extractor for target sounds. Furthermore, SoloAudio leverages synthetic
audio generated by state-of-the-art text-to-audio models for training,
demonstrating strong generalization to out-of-domain data and unseen sound
events. We evaluate this approach on the FSD Kaggle 2018 mixture dataset and
real data from AudioSet, where SoloAudio achieves the state-of-the-art results
on both in-domain and out-of-domain data, and exhibits impressive zero-shot and
few-shot capabilities. Source code and demos are released.Summary
AI-Generated Summary