SoloAudio:言語指向オーディオ拡散トランスフォーマーによるターゲット音抽出
SoloAudio: Target Sound Extraction with Language-oriented Audio Diffusion Transformer
September 12, 2024
著者: Helin Wang, Jiarui Hai, Yen-Ju Lu, Karan Thakkar, Mounya Elhilali, Najim Dehak
cs.AI
要旨
本論文では、SoloAudioという新しい拡散ベースの生成モデルを紹介し、ターゲット音声抽出(TSE)のためのものです。当アプローチは、音声に対して潜在的な拡散モデルをトレーニングし、以前のU-Netバックボーンをスキップ接続されたTransformerで置き換え、潜在的な特徴に作用します。SoloAudioは、CLAPモデルをターゲット音声の特徴抽出器として利用することで、音声指向および言語指向のTSEの両方をサポートします。さらに、SoloAudioは、最先端のテキストから音声へのモデルによって生成された合成音声をトレーニングに利用し、ドメイン外データや未知の音声イベントに対する強力な汎化能力を示します。この手法をFSD Kaggle 2018混合データセットとAudioSetからの実データで評価し、SoloAudioはドメイン内外の両方のデータで最先端の結果を達成し、印象的なゼロショットおよびフューショットの能力を示します。ソースコードとデモが公開されています。
English
In this paper, we introduce SoloAudio, a novel diffusion-based generative
model for target sound extraction (TSE). Our approach trains latent diffusion
models on audio, replacing the previous U-Net backbone with a skip-connected
Transformer that operates on latent features. SoloAudio supports both
audio-oriented and language-oriented TSE by utilizing a CLAP model as the
feature extractor for target sounds. Furthermore, SoloAudio leverages synthetic
audio generated by state-of-the-art text-to-audio models for training,
demonstrating strong generalization to out-of-domain data and unseen sound
events. We evaluate this approach on the FSD Kaggle 2018 mixture dataset and
real data from AudioSet, where SoloAudio achieves the state-of-the-art results
on both in-domain and out-of-domain data, and exhibits impressive zero-shot and
few-shot capabilities. Source code and demos are released.Summary
AI-Generated Summary