SoloAudio: Zielgerichtete Tonextraktion mit sprachorientiertem Audio-Diffusionstransformator
SoloAudio: Target Sound Extraction with Language-oriented Audio Diffusion Transformer
September 12, 2024
Autoren: Helin Wang, Jiarui Hai, Yen-Ju Lu, Karan Thakkar, Mounya Elhilali, Najim Dehak
cs.AI
Zusammenfassung
In diesem Paper stellen wir SoloAudio vor, ein neuartiges, auf Diffusion basierendes generatives Modell für die Extraktion von Zielgeräuschen (TSE). Unser Ansatz trainiert latente Diffusionsmodelle auf Audio, wobei das vorherige U-Net-Grundgerüst durch einen Transformer mit Skip-Verbindungen ersetzt wird, der auf latenten Merkmalen arbeitet. SoloAudio unterstützt sowohl audioorientierte als auch sprachorientierte TSE, indem es ein CLAP-Modell als Merkmalsextraktor für Zielgeräusche verwendet. Darüber hinaus nutzt SoloAudio synthetische Audiosignale, die von modernsten Text-zu-Audio-Modellen generiert wurden, für das Training. Dies zeigt eine starke Verallgemeinerung auf Daten außerhalb des Domänen und auf unbekannte Geräuschereignisse. Wir evaluieren diesen Ansatz anhand des FSD Kaggle 2018 Mischdatensatzes und echter Daten aus AudioSet, wobei SoloAudio sowohl auf in-domain als auch auf out-of-domain Daten state-of-the-art Ergebnisse erzielt und beeindruckende Zero-Shot- und Few-Shot-Fähigkeiten zeigt. Der Quellcode und Demos sind veröffentlicht worden.
English
In this paper, we introduce SoloAudio, a novel diffusion-based generative
model for target sound extraction (TSE). Our approach trains latent diffusion
models on audio, replacing the previous U-Net backbone with a skip-connected
Transformer that operates on latent features. SoloAudio supports both
audio-oriented and language-oriented TSE by utilizing a CLAP model as the
feature extractor for target sounds. Furthermore, SoloAudio leverages synthetic
audio generated by state-of-the-art text-to-audio models for training,
demonstrating strong generalization to out-of-domain data and unseen sound
events. We evaluate this approach on the FSD Kaggle 2018 mixture dataset and
real data from AudioSet, where SoloAudio achieves the state-of-the-art results
on both in-domain and out-of-domain data, and exhibits impressive zero-shot and
few-shot capabilities. Source code and demos are released.Summary
AI-Generated Summary