SoloAudio : Extraction ciblée du son avec un transformateur de diffusion audio orienté vers le langage

Résumé

Dans cet article, nous présentons SoloAudio, un modèle génératif novateur basé sur la diffusion pour l'extraction de son cible (TSE). Notre approche entraîne des modèles de diffusion latents sur l'audio, remplaçant le précédent socle U-Net par un Transformateur connecté par saut opérant sur des caractéristiques latentes. SoloAudio prend en charge à la fois l'extraction de son orientée audio et orientée langage en utilisant un modèle CLAP comme extracteur de caractéristiques pour les sons cibles. De plus, SoloAudio tire parti de l'audio synthétique généré par des modèles de texte-à-audio de pointe pour l'entraînement, démontrant une forte généralisation aux données hors domaine et aux événements sonores non vus. Nous évaluons cette approche sur l'ensemble de données de mélange FSD Kaggle 2018 et sur des données réelles d'AudioSet, où SoloAudio atteint des résultats de pointe à la fois sur les données dans le domaine et hors domaine, et présente des capacités impressionnantes de zéro-shot et de few-shot. Le code source et des démonstrations sont disponibles.

English

In this paper, we introduce SoloAudio, a novel diffusion-based generative model for target sound extraction (TSE). Our approach trains latent diffusion models on audio, replacing the previous U-Net backbone with a skip-connected Transformer that operates on latent features. SoloAudio supports both audio-oriented and language-oriented TSE by utilizing a CLAP model as the feature extractor for target sounds. Furthermore, SoloAudio leverages synthetic audio generated by state-of-the-art text-to-audio models for training, demonstrating strong generalization to out-of-domain data and unseen sound events. We evaluate this approach on the FSD Kaggle 2018 mixture dataset and real data from AudioSet, where SoloAudio achieves the state-of-the-art results on both in-domain and out-of-domain data, and exhibits impressive zero-shot and few-shot capabilities. Source code and demos are released.