SoloAudio: Extração de Som Alvo com Difusor de Áudio Orientado por Linguagem Transformer
SoloAudio: Target Sound Extraction with Language-oriented Audio Diffusion Transformer
September 12, 2024
Autores: Helin Wang, Jiarui Hai, Yen-Ju Lu, Karan Thakkar, Mounya Elhilali, Najim Dehak
cs.AI
Resumo
Neste artigo, apresentamos o SoloAudio, um modelo generativo baseado em difusão para extração de som-alvo (TSE). Nossa abordagem treina modelos de difusão latente em áudio, substituindo a estrutura U-Net anterior por um Transformer conectado por skip que opera em características latentes. O SoloAudio suporta tanto a TSE orientada para áudio quanto para linguagem, utilizando um modelo CLAP como extrator de características para os sons-alvo. Além disso, o SoloAudio aproveita áudio sintético gerado por modelos de texto-para-áudio de última geração para treinamento, demonstrando uma forte capacidade de generalização para dados fora do domínio e eventos sonoros não vistos anteriormente. Avaliamos essa abordagem no conjunto de dados de mistura FSD Kaggle 2018 e em dados reais do AudioSet, onde o SoloAudio alcança resultados de ponta tanto em dados dentro quanto fora do domínio, e exibe impressionantes capacidades de zero-shot e few-shot. O código-fonte e demonstrações estão disponíveis.
English
In this paper, we introduce SoloAudio, a novel diffusion-based generative
model for target sound extraction (TSE). Our approach trains latent diffusion
models on audio, replacing the previous U-Net backbone with a skip-connected
Transformer that operates on latent features. SoloAudio supports both
audio-oriented and language-oriented TSE by utilizing a CLAP model as the
feature extractor for target sounds. Furthermore, SoloAudio leverages synthetic
audio generated by state-of-the-art text-to-audio models for training,
demonstrating strong generalization to out-of-domain data and unseen sound
events. We evaluate this approach on the FSD Kaggle 2018 mixture dataset and
real data from AudioSet, where SoloAudio achieves the state-of-the-art results
on both in-domain and out-of-domain data, and exhibits impressive zero-shot and
few-shot capabilities. Source code and demos are released.Summary
AI-Generated Summary