SoloAudio: Извлечение целевого звука с использованием языково ориентированного аудио Диффузионного Трансформера
SoloAudio: Target Sound Extraction with Language-oriented Audio Diffusion Transformer
September 12, 2024
Авторы: Helin Wang, Jiarui Hai, Yen-Ju Lu, Karan Thakkar, Mounya Elhilali, Najim Dehak
cs.AI
Аннотация
В данной статье мы представляем SoloAudio, новую генеративную модель на основе диффузии для извлечения целевого звука (TSE). Наш подход обучает латентные модели диффузии на аудио, заменяя предыдущую основу U-Net на трансформер с пропускными соединениями, который работает с латентными признаками. SoloAudio поддерживает как аудио-ориентированное, так и языково-ориентированное извлечение целевого звука, используя модель CLAP в качестве извлекателя признаков для целевых звуков. Более того, SoloAudio использует синтетические аудио, созданные современными моделями текст-в-аудио для обучения, демонстрируя сильную обобщающую способность к данным вне области и невидимым звуковым событиям. Мы оцениваем этот подход на смешанном наборе данных FSD Kaggle 2018 и реальных данных из AudioSet, где SoloAudio достигает передовых результатов как на данных внутри области, так и вне ее, и проявляет впечатляющие возможности нулевого и небольшого количества обучающих примеров. Исходный код и демонстрации доступны для ознакомления.
English
In this paper, we introduce SoloAudio, a novel diffusion-based generative
model for target sound extraction (TSE). Our approach trains latent diffusion
models on audio, replacing the previous U-Net backbone with a skip-connected
Transformer that operates on latent features. SoloAudio supports both
audio-oriented and language-oriented TSE by utilizing a CLAP model as the
feature extractor for target sounds. Furthermore, SoloAudio leverages synthetic
audio generated by state-of-the-art text-to-audio models for training,
demonstrating strong generalization to out-of-domain data and unseen sound
events. We evaluate this approach on the FSD Kaggle 2018 mixture dataset and
real data from AudioSet, where SoloAudio achieves the state-of-the-art results
on both in-domain and out-of-domain data, and exhibits impressive zero-shot and
few-shot capabilities. Source code and demos are released.Summary
AI-Generated Summary