SoloAudio : Extraction ciblée du son avec un transformateur de diffusion audio orienté vers le langage
SoloAudio: Target Sound Extraction with Language-oriented Audio Diffusion Transformer
September 12, 2024
Auteurs: Helin Wang, Jiarui Hai, Yen-Ju Lu, Karan Thakkar, Mounya Elhilali, Najim Dehak
cs.AI
Résumé
Dans cet article, nous présentons SoloAudio, un modèle génératif novateur basé sur la diffusion pour l'extraction de son cible (TSE). Notre approche entraîne des modèles de diffusion latents sur l'audio, remplaçant le précédent socle U-Net par un Transformateur connecté par saut opérant sur des caractéristiques latentes. SoloAudio prend en charge à la fois l'extraction de son orientée audio et orientée langage en utilisant un modèle CLAP comme extracteur de caractéristiques pour les sons cibles. De plus, SoloAudio tire parti de l'audio synthétique généré par des modèles de texte-à-audio de pointe pour l'entraînement, démontrant une forte généralisation aux données hors domaine et aux événements sonores non vus. Nous évaluons cette approche sur l'ensemble de données de mélange FSD Kaggle 2018 et sur des données réelles d'AudioSet, où SoloAudio atteint des résultats de pointe à la fois sur les données dans le domaine et hors domaine, et présente des capacités impressionnantes de zéro-shot et de few-shot. Le code source et des démonstrations sont disponibles.
English
In this paper, we introduce SoloAudio, a novel diffusion-based generative
model for target sound extraction (TSE). Our approach trains latent diffusion
models on audio, replacing the previous U-Net backbone with a skip-connected
Transformer that operates on latent features. SoloAudio supports both
audio-oriented and language-oriented TSE by utilizing a CLAP model as the
feature extractor for target sounds. Furthermore, SoloAudio leverages synthetic
audio generated by state-of-the-art text-to-audio models for training,
demonstrating strong generalization to out-of-domain data and unseen sound
events. We evaluate this approach on the FSD Kaggle 2018 mixture dataset and
real data from AudioSet, where SoloAudio achieves the state-of-the-art results
on both in-domain and out-of-domain data, and exhibits impressive zero-shot and
few-shot capabilities. Source code and demos are released.Summary
AI-Generated Summary