SoloAudio: Doelgeluidsextractie met Taalgerichte Audio Diffusie Transformer
SoloAudio: Target Sound Extraction with Language-oriented Audio Diffusion Transformer
September 12, 2024
Auteurs: Helin Wang, Jiarui Hai, Yen-Ju Lu, Karan Thakkar, Mounya Elhilali, Najim Dehak
cs.AI
Samenvatting
In dit artikel introduceren we SoloAudio, een nieuw diffusie-gebaseerd generatief model voor doelgeluidsextractie (TSE). Onze aanpak traint latente diffusiemodellen op audio, waarbij de vorige U-Net ruggengraat wordt vervangen door een skip-verbonden Transformer die op latente kenmerken werkt. SoloAudio ondersteunt zowel audio-georiënteerde als taal-georiënteerde TSE door een CLAP-model te gebruiken als de kenmerkextractor voor doelgeluiden. Bovendien maakt SoloAudio gebruik van synthetische audio gegenereerd door toonaangevende tekst-naar-audio modellen voor training, waarbij sterke generalisatie naar out-of-domain data en ongeziene geluidgebeurtenissen wordt gedemonstreerd. We evalueren deze aanpak op de FSD Kaggle 2018 mengdataset en echte gegevens van AudioSet, waar SoloAudio de state-of-the-art resultaten behaalt op zowel in-domain als out-of-domain data, en indrukwekkende zero-shot en few-shot mogelijkheden vertoont. De broncode en demo's zijn vrijgegeven.
English
In this paper, we introduce SoloAudio, a novel diffusion-based generative
model for target sound extraction (TSE). Our approach trains latent diffusion
models on audio, replacing the previous U-Net backbone with a skip-connected
Transformer that operates on latent features. SoloAudio supports both
audio-oriented and language-oriented TSE by utilizing a CLAP model as the
feature extractor for target sounds. Furthermore, SoloAudio leverages synthetic
audio generated by state-of-the-art text-to-audio models for training,
demonstrating strong generalization to out-of-domain data and unseen sound
events. We evaluate this approach on the FSD Kaggle 2018 mixture dataset and
real data from AudioSet, where SoloAudio achieves the state-of-the-art results
on both in-domain and out-of-domain data, and exhibits impressive zero-shot and
few-shot capabilities. Source code and demos are released.Summary
AI-Generated Summary