SoloAudio: Zielgerichtete Tonextraktion mit sprachorientiertem Audio-Diffusionstransformator

papers.abstract

In diesem Paper stellen wir SoloAudio vor, ein neuartiges, auf Diffusion basierendes generatives Modell für die Extraktion von Zielgeräuschen (TSE). Unser Ansatz trainiert latente Diffusionsmodelle auf Audio, wobei das vorherige U-Net-Grundgerüst durch einen Transformer mit Skip-Verbindungen ersetzt wird, der auf latenten Merkmalen arbeitet. SoloAudio unterstützt sowohl audioorientierte als auch sprachorientierte TSE, indem es ein CLAP-Modell als Merkmalsextraktor für Zielgeräusche verwendet. Darüber hinaus nutzt SoloAudio synthetische Audiosignale, die von modernsten Text-zu-Audio-Modellen generiert wurden, für das Training. Dies zeigt eine starke Verallgemeinerung auf Daten außerhalb des Domänen und auf unbekannte Geräuschereignisse. Wir evaluieren diesen Ansatz anhand des FSD Kaggle 2018 Mischdatensatzes und echter Daten aus AudioSet, wobei SoloAudio sowohl auf in-domain als auch auf out-of-domain Daten state-of-the-art Ergebnisse erzielt und beeindruckende Zero-Shot- und Few-Shot-Fähigkeiten zeigt. Der Quellcode und Demos sind veröffentlicht worden.

English

In this paper, we introduce SoloAudio, a novel diffusion-based generative model for target sound extraction (TSE). Our approach trains latent diffusion models on audio, replacing the previous U-Net backbone with a skip-connected Transformer that operates on latent features. SoloAudio supports both audio-oriented and language-oriented TSE by utilizing a CLAP model as the feature extractor for target sounds. Furthermore, SoloAudio leverages synthetic audio generated by state-of-the-art text-to-audio models for training, demonstrating strong generalization to out-of-domain data and unseen sound events. We evaluate this approach on the FSD Kaggle 2018 mixture dataset and real data from AudioSet, where SoloAudio achieves the state-of-the-art results on both in-domain and out-of-domain data, and exhibits impressive zero-shot and few-shot capabilities. Source code and demos are released.

SoloAudio: Zielgerichtete Tonextraktion mit sprachorientiertem Audio-Diffusionstransformator

SoloAudio: Target Sound Extraction with Language-oriented Audio Diffusion Transformer

papers.abstract

Support